• 🌌 ¡Astreya Week ha comenzado!

    Celebra a nuestra mascota galáctica creando arte, historias o ideas inspiradas en ella.
    Participa del 25 al 31 de julio y gana premios estelares.
    ¡Súmate a la Astreya Week!

  • 🎉 ¡El Aniversario de Atlas ha llegado a su fin!

    🌟 Gracias por acompañarnos en esta celebración tan especial. Si participaste y aún no has recibido todos tus premios, puedes solicitarlos en el tema oficial del evento.
    ¡Reclama tus recompensas aquí!

  • 🏕️ ¡Campamento Literario de Julio en marcha!

    ✍️ Este mes escribimos sobre Resistencia. ¿Qué significa para ti?
    Participa en los retos semanales y deja fluir tus palabras.
    ¡Únete al Campamento aquí!

  • 🎯 ¡Misiones Imposibles!

    🔐 ¿Aceptas el desafío? Tus habilidades serán puestas a prueba en estas misiones especiales del foro.
    Ver misiones activas

  • 🎨 ¡Reto Artístico de Mayo sigue activo!

    🖌️ El arte no tiene fecha de caducidad. Tienes hasta el 31 de julio para compartir tu creación.
    ¡Participa con tu obra aquí!

Uso de datos de Ao3 para entrenar IAs

Lariebel

Guardian de Letras
Guardian de Letras
Tejedor de Historias
Mensajes
46
Puntos de reacción
65
Puntos
29
Ubicación
Argentina.
Buenas, buenaaaaas. Espero que anden bien. Lamentablemente, vengo con una noticia que a la comunidad literaria no nos cae para nada bien: Uso de datos sin consentimiento con el fin de entrenar a las Inteligencias Artificiales. Y esto, tengo entendido, no es algo novedoso, sino más bien algo recurrente (lo cual es peor).

¿Cómo es esto? ¿Qué pasó?

Les voy a contextualizar. Hace unos días, salió la noticia de que un usuario llamado nyuuzyou realizó una extracción de datos de Archive of Our Own (Ao3) sin autorización (tanto de textos como de imágenes-ilustraciones) y lo subió a un sitio web de aprendizaje automático llamado Huggingface. Nota importante: Solo extrajo obras disponibles públicamente (no obras que son privadas, solo disponibles para su lectura para usuarios del sitio). Las obras extraídas son de marzo de este año y del tiempo anterior a esa fecha.

Les dejo, a continuación, la traducción del mensaje hablando de este tema publicado en Reddit:


AO3 es consciente de esto y ha presentado una solicitud de baja de la DCMA a Huggingface, donde los datos se han vuelto temporalmente inaccesibles (es decir, nadie puede usarlos actualmente para entrenamiento). En respuesta, quien subió el contenido presentó una contrademanda para intentar que se restableciera; sin embargo, como los Términos de Servicio de Huggingface no permiten subir ningún contenido del que no tenga los derechos, es poco probable que su contrademanda prospere. Sin embargo, el usuario también subió el conjunto de datos a dos sitios web más después de la baja de Huggingface: modelscope y datafish. Estos dos sitios están ubicados en China y Rusia respectivamente, lugares que no siempre responden a las bajas de la DCMA; sin embargo, la subida a modelscope parece haber sido bajada/eliminada al momento de escribir esto. (Tampoco podemos enlazar a estos sitios web, ya que Reddit los tiene baneados).

El sitio web Paperdemon tiene más información sobre los plazos, otros sitios web afectados y cómo solicitar la eliminación de DCMA a Huggingface (lo que con suerte no será necesario, pero será un buen recurso en caso de que la contrademanda tenga éxito).

Como este tipo de scraping es, lamentablemente, difícil de controlar, la mejor opción que podemos recomendar como subreddit es bloquear sus obras para que solo estén disponibles para usuarios registrados del archivo (ya que es menos probable que sean scraping, aunque esto no es infalible). Para los lectores, si no tienen una cuenta, necesitarán crear una para poder ver las obras bloqueadas del archivo. Pueden encontrar un enlace a nuestro hilo de solicitud de invitación más reciente aquí , o agregar su correo electrónico a la lista de espera de registro en AO3 para recibir una invitación directamente en unos días.

~Cthulu (y el resto del equipo moderador)

Para más información, les dejo el enlace del post original.

Es algo que ya ha pasado, tengo entendido, y que va a seguir pasando. Esto es muy triste. La idea de construir una comunidad literaria es compartir nuestros escritos con confianza y seguridad de que no va a suceder nada, pero a causa de estas personas malintencionadas, nos toca restringirnos, limitarnos, a nosotros como escritores y a nuestros lectores también.

Lo que aconsejan en la comunidad literaria en general es configurar las obras que publicamos en el sitio como privadas, de forma tal que solo las puedan leer los usuarios registrados. Esto, como dice el texto citado, no es una medida infalible que nos va a proteger de todo, pero podría ayudar a darle una capa más de protección a nuestros escritos.

Claro está, es decisión personal de cada escritor, ya que esto trae como consecuencia que no todos podrán leer nuestras obras. :pepecry:

¿Cuáles son sus pensamientos acerca de este tema? ¿A dónde iremos a parar los escritores de internet? ¿Qué quisieran compartir sobre esto?

Bueno, yo les dejo este tema abierto como para que se informen sobre lo que está sucediendo y también por si quieren debatir, charlar, compartir lo que tienen en su mente, etc.

Les mando un saludo enorme. Cuídense mucho y cuiden sus obras.
 
Wow, no me habia enterado de que habia pasado esto. Esperemos que de alguna forma se pueda resolver, aunque siento que cada vez mas va a ser dificil proteger las obras de las ias, talvez en un futuro muy cercano, incluso las obras protegidas, es decir, que ocupas cuenta para leerlas en AO3 no esten seguras (siempre va a haber un hacker o alguine con mucho conocimiento de computadoras viendo como puede superar las barreras o bloqueos).
 
Sabía que esto en algún momento iba a pasar desde que comenzaron a salir imágenes de "arte" creadas con inteligencia artificial, incluso en portadas de libros que editoriales promocionaban.

La inteligencia artificial es un recurso asombroso, la he usado cuando no se como se describe un arma, o cuando no encuentro mucha información sobre el lugar donde quiero centrar una historia, pero hasta ahí. Porque es eso, un recurso.

La inteligencia artificial esta acabando con el arte mismo, como hace por ejemplo Chat gpt con alumnos, los hace flojos, los hace dependientes y ahora también quita parte del arte.

No quisiera que desapareciera el arte verdadero, pero a como vamos, mucha gente comenzará a usar la inteligencia artificial de una manera no sensata, quitará su creatividad, hará solo textos genéricos sin alma y sin sentimientos. Al igual que hizo con muchos estilos de dibujo.
 
Alguno sabe cómo puedo saber si usaron mis fanfiction o los de algún amigo para esto de la IA? 😞
(Es que ví que algunos pudieron reconocer los suyos)
Habia leido que todos los fanfics que tengan su id desde el 1 hasta el 63,200, 000 son los que se extrajeron. No se donde haya salido la informacion pero por si acaso te sirve, te la dejo.

Ahora bien, yo revise y un monton de fanfics que tengo yo guardados en mis bookmarks estan en esos que posiblemente se extrajeron. No se si haya forma de darlos de baja o si simplemente habra que esperar.
 
Habia leido que todos los fanfics que tengan su id desde el 1 hasta el 63,200, 000 son los que se extrajeron. No se donde haya salido la informacion pero por si acaso te sirve, te la dejo.

Ahora bien, yo revise y un monton de fanfics que tengo yo guardados en mis bookmarks estan en esos que posiblemente se extrajeron. No se si haya forma de darlos de baja o si simplemente habra que esperar.
Aaah, gracias por la info.
Espero que ninguno de los ff que conozco o los míos estén allí 😿
 
Aaah, gracias por la info.
Espero que ninguno de los ff que conozco o los míos estén allí 😿
Ojala que no, igual si puedes pon tu cuenta en privado (osea solo para miembros registrados) y si conoces a gente que usa Ao3 recomiendales que hagan lo mismo, segun esto hace que sea mas dificil de extraer los datos de los fanfics (les pone 1 barrera mas de proteccion), asi aunque se hayan extraido tus fanfics viejos, los proximos tendran un poco mas de proteccion (almenos hasta que los heckers y asi creen nuevas formas de acceder a la informacion que quieren robarse).
 
Ojala que no, igual si puedes pon tu cuenta en privado (osea solo para miembros registrados) y si conoces a gente que usa Ao3 recomiendales que hagan lo mismo, segun esto hace que sea mas dificil de extraer los datos de los fanfics (les pone 1 barrera mas de proteccion), asi aunque se hayan extraido tus fanfics viejos, los proximos tendran un poco mas de proteccion (almenos hasta que los heckers y asi creen nuevas formas de acceder a la informacion que quieren robarse).
Yo hice eso, estoy publicando uno fic nuevo y los que seguirán ya llevarán solo privado... Aunque no me gusta que estén así, limita mucho a las personas para leer, pero así se deberá de quedar hasta que se solucioné esto :eevee6:
 
Quiero aportar a este tema que, de hecho, los trabajos privados también están dentro del dataset. Algunas personas con fanfics privados antes de la fecha del incidente han revisado y encontrado todos sus trabajos en la lista (si algunx de ustedes quiere hacer lo mismo, pueden buscar en este link). También es importante mencionar que el dataset fue puesto en un torrent y ahí es mucho más difícil seguirle el rastro, sin embargo, aún no hay pruebas de su uso para alimentar alguna IA generativa.

Espero que esto no les desanime a publicar en la plataforma, aunque esto sea algo triste. Muchxs estamos a la espera que AO3 encuentre alguna solución para el futuro próximo. Lamentablemente es algo a lo que nos exponemos al subir contenido a internet; hay gente que simplemente obra de mala fe, como estas personas que ahora se dedican a acosar y "trolear" a lxs usuarixs de AO3.
 
Quiero aportar a este tema que, de hecho, los trabajos privados también están dentro del dataset. Algunas personas con fanfics privados antes de la fecha del incidente han revisado y encontrado todos sus trabajos en la lista (si algunx de ustedes quiere hacer lo mismo, pueden buscar en este link). También es importante mencionar que el dataset fue puesto en un torrent y ahí es mucho más difícil seguirle el rastro, sin embargo, aún no hay pruebas de su uso para alimentar alguna IA generativa.
Acabo de revisar y están todos mis fics, menos el más reciente que subí en abril.

¡Gracias por compartir el link!
 
Quiero aportar a este tema que, de hecho, los trabajos privados también están dentro del dataset. Algunas personas con fanfics privados antes de la fecha del incidente han revisado y encontrado todos sus trabajos en la lista (si algunx de ustedes quiere hacer lo mismo, pueden buscar en este link). También es importante mencionar que el dataset fue puesto en un torrent y ahí es mucho más difícil seguirle el rastro, sin embargo, aún no hay pruebas de su uso para alimentar alguna IA generativa.

Espero que esto no les desanime a publicar en la plataforma, aunque esto sea algo triste. Muchxs estamos a la espera que AO3 encuentre alguna solución para el futuro próximo. Lamentablemente es algo a lo que nos exponemos al subir contenido a internet; hay gente que simplemente obra de mala fe, como estas personas que ahora se dedican a acosar y "trolear" a lxs usuarixs de AO3.
Entonces incluso las fanfics protegidos de solo cuenta fueron scrappeados??? que horror, no sabia eso.

Me imagino que AO3 ya esta enterado y bsuacra la forma de proteger a los escritores como siempre lo ha hecho, asi que no hay que desmotivarse, yo almenos, si algun dia escribo algo, lo subire alli, es que ninguna otra opcion a mi parecer es tan favorable en cuanto a fanfics.
 
Alguno sabe cómo puedo saber si usaron mis fanfiction o los de algún amigo para esto de la IA? 😞
(Es que ví que algunos pudieron reconocer los suyos)
En tumblr hicieron un blog al respecto, alguien hizo una página donde puedes buscar por nombre de autor o ID del fanfic.
Link de la herramienta para ver si te hicieron scraping

Solo pon tu nombre de usuario tal cual lo tienes en AO3 y si es anónimo el fic tienes que poner el ID.
 
Atrás
Arriba Pie