Buenas, buenaaaaas. Espero que anden bien. Lamentablemente, vengo con una noticia que a la comunidad literaria no nos cae para nada bien: Uso de datos sin consentimiento con el fin de entrenar a las Inteligencias Artificiales. Y esto, tengo entendido, no es algo novedoso, sino más bien algo recurrente (lo cual es peor).
¿Cómo es esto? ¿Qué pasó?
Les voy a contextualizar. Hace unos días, salió la noticia de que un usuario llamado nyuuzyou realizó una extracción de datos de Archive of Our Own (Ao3) sin autorización (tanto de textos como de imágenes-ilustraciones) y lo subió a un sitio web de aprendizaje automático llamado Huggingface. Nota importante: Solo extrajo obras disponibles públicamente (no obras que son privadas, solo disponibles para su lectura para usuarios del sitio). Las obras extraídas son de marzo de este año y del tiempo anterior a esa fecha.
Les dejo, a continuación, la traducción del mensaje hablando de este tema publicado en Reddit:
Para más información, les dejo el enlace del post original.
Es algo que ya ha pasado, tengo entendido, y que va a seguir pasando. Esto es muy triste. La idea de construir una comunidad literaria es compartir nuestros escritos con confianza y seguridad de que no va a suceder nada, pero a causa de estas personas malintencionadas, nos toca restringirnos, limitarnos, a nosotros como escritores y a nuestros lectores también.
Lo que aconsejan en la comunidad literaria en general es configurar las obras que publicamos en el sitio como privadas, de forma tal que solo las puedan leer los usuarios registrados. Esto, como dice el texto citado, no es una medida infalible que nos va a proteger de todo, pero podría ayudar a darle una capa más de protección a nuestros escritos.
Claro está, es decisión personal de cada escritor, ya que esto trae como consecuencia que no todos podrán leer nuestras obras.
¿Cuáles son sus pensamientos acerca de este tema? ¿A dónde iremos a parar los escritores de internet? ¿Qué quisieran compartir sobre esto?
Bueno, yo les dejo este tema abierto como para que se informen sobre lo que está sucediendo y también por si quieren debatir, charlar, compartir lo que tienen en su mente, etc.
Les mando un saludo enorme. Cuídense mucho y cuiden sus obras.
¿Cómo es esto? ¿Qué pasó?
Les voy a contextualizar. Hace unos días, salió la noticia de que un usuario llamado nyuuzyou realizó una extracción de datos de Archive of Our Own (Ao3) sin autorización (tanto de textos como de imágenes-ilustraciones) y lo subió a un sitio web de aprendizaje automático llamado Huggingface. Nota importante: Solo extrajo obras disponibles públicamente (no obras que son privadas, solo disponibles para su lectura para usuarios del sitio). Las obras extraídas son de marzo de este año y del tiempo anterior a esa fecha.
Les dejo, a continuación, la traducción del mensaje hablando de este tema publicado en Reddit:
AO3 es consciente de esto y ha presentado una solicitud de baja de la DCMA a Huggingface, donde los datos se han vuelto temporalmente inaccesibles (es decir, nadie puede usarlos actualmente para entrenamiento). En respuesta, quien subió el contenido presentó una contrademanda para intentar que se restableciera; sin embargo, como los Términos de Servicio de Huggingface no permiten subir ningún contenido del que no tenga los derechos, es poco probable que su contrademanda prospere. Sin embargo, el usuario también subió el conjunto de datos a dos sitios web más después de la baja de Huggingface: modelscope y datafish. Estos dos sitios están ubicados en China y Rusia respectivamente, lugares que no siempre responden a las bajas de la DCMA; sin embargo, la subida a modelscope parece haber sido bajada/eliminada al momento de escribir esto. (Tampoco podemos enlazar a estos sitios web, ya que Reddit los tiene baneados).
El sitio web Paperdemon tiene más información sobre los plazos, otros sitios web afectados y cómo solicitar la eliminación de DCMA a Huggingface (lo que con suerte no será necesario, pero será un buen recurso en caso de que la contrademanda tenga éxito).
Como este tipo de scraping es, lamentablemente, difícil de controlar, la mejor opción que podemos recomendar como subreddit es bloquear sus obras para que solo estén disponibles para usuarios registrados del archivo (ya que es menos probable que sean scraping, aunque esto no es infalible). Para los lectores, si no tienen una cuenta, necesitarán crear una para poder ver las obras bloqueadas del archivo. Pueden encontrar un enlace a nuestro hilo de solicitud de invitación más reciente aquí , o agregar su correo electrónico a la lista de espera de registro en AO3 para recibir una invitación directamente en unos días.
~Cthulu (y el resto del equipo moderador)
Para más información, les dejo el enlace del post original.
Es algo que ya ha pasado, tengo entendido, y que va a seguir pasando. Esto es muy triste. La idea de construir una comunidad literaria es compartir nuestros escritos con confianza y seguridad de que no va a suceder nada, pero a causa de estas personas malintencionadas, nos toca restringirnos, limitarnos, a nosotros como escritores y a nuestros lectores también.
Lo que aconsejan en la comunidad literaria en general es configurar las obras que publicamos en el sitio como privadas, de forma tal que solo las puedan leer los usuarios registrados. Esto, como dice el texto citado, no es una medida infalible que nos va a proteger de todo, pero podría ayudar a darle una capa más de protección a nuestros escritos.
Claro está, es decisión personal de cada escritor, ya que esto trae como consecuencia que no todos podrán leer nuestras obras.
¿Cuáles son sus pensamientos acerca de este tema? ¿A dónde iremos a parar los escritores de internet? ¿Qué quisieran compartir sobre esto?
Bueno, yo les dejo este tema abierto como para que se informen sobre lo que está sucediendo y también por si quieren debatir, charlar, compartir lo que tienen en su mente, etc.
Les mando un saludo enorme. Cuídense mucho y cuiden sus obras.