Tecnologías disruptivas
La IA que genera textos es una fuente de plagios encubiertos
Estos sistemas inteligentes son como loros que repiten lo aprendido en documentos originales, según una investigación

Los científicos advierten del riesgo de plagios en documentos elaborados por la IA. / Alexandra_Koch en Pixabay.
Los sistemas de Inteligencia Artificial que generan contenidos parafrasean y reutilizan ideas sin citar la fuente: plagian porque no han sido instruidos para escribir correctamente. Son como loros que repiten lo que aprenden de documentos originales. Los usuarios pueden ser víctimas de esta incompetencia.
Los modelos de lenguaje que generan texto en respuesta a las indicaciones del usuario plagian el contenido en más de un sentido, según un equipo de investigación dirigido por la Universidad Estatal de Pensilvania que realizó el primer estudio para examinar el proceso de generación de contenidos de estos sistemas de Inteligencia Artificial (IA).
Los investigadores se centraron en identificar tres formas de plagio: palabra por palabra, o directamente copiar y pegar contenido; parafrasear, o reformular y reestructurar el contenido sin citar la fuente original; o usar la idea principal de un texto sin la debida atribución.
Construyeron una canalización para la detección automática de plagio y la probaron con GPT-2 de OpenAI porque los datos de entrenamiento del modelo de lenguaje están disponibles en línea, lo que permitió a los investigadores comparar los textos generados por esta IA con los 8 millones de documentos utilizados para entrenar previamente a GPT-2.
Plagio comprobado
Los científicos utilizaron 210.000 textos generados por la IA para probar el plagio en modelos de lenguaje previamente entrenados y modelos de lenguaje ajustados, e incluso modelos entrenados para enfocarse en áreas temáticas específicas.
En este caso, el equipo ajustó tres modelos de lenguaje para centrarse en documentos científicos, artículos académicos relacionados con COVID-19 y reclamos de patentes.
Utilizaron un motor de búsqueda de código abierto para recuperar los 10 documentos de capacitación más similares a cada texto generado y modificaron un algoritmo de alineación de texto existente para detectar mejor los casos de plagio literal, de paráfrasis y de ideas.
Más datos, más plagios
El equipo descubrió que los modelos de lenguaje cometían los tres tipos de plagio y que cuanto mayor era el conjunto de datos y los parámetros utilizados para entrenar el modelo, más a menudo ocurría el plagio.
También notaron que los modelos de lenguaje afinados redujeron el plagio textual, pero aumentaron los casos de paráfrasis y plagio de ideas.
Además, identificaron instancias del modelo de lenguaje que exponía la información privada de las personas a través de las tres formas de plagio. Los investigadores presentarán sus hallazgos en la Conferencia Web ACM 2023, que tendrá lugar del 30 de abril al 4 de mayo en Austin, Texas. El estudio ya está publicado en arXiv.
Más investigación
El estudio destaca la necesidad de más investigación sobre los generadores de texto y las cuestiones éticas y filosóficas que plantean, según los investigadores.
Aunque los resultados del estudio solo se aplican a GPT-2, el proceso de detección automática de plagio que establecieron los investigadores se puede aplicar a modelos de lenguaje más nuevos como ChatGPT para determinar si estos modelos plagian contenido de capacitación y con qué frecuencia.
Sin embargo, las pruebas de plagio dependen de que los desarrolladores hagan que los datos de capacitación empleados por la IA para aprender sean de acceso público, dijeron los investigadores.
Aviso a navegantes
El estudio actual puede ayudar a los investigadores de IA a construir modelos de lenguaje más sólidos, confiables y responsables en el futuro, según los científicos. Por ahora, instan a las personas a tener cuidado al usar generadores de texto.
El problema de fondo es que los modelos de lenguaje se programan para imitar escritos humanos, sin enseñarles a generar contenidos sin llegar a plagiar.
Esos modelos son como loros estocásticos que repiten con adornos lo que ven en documentos originales, dicen los autores de esta investigación en un comunicado.
Los investigadores plantean que es el momento de enseñarles a escribir más correctamente, lo que supone una tarea que no ha hecho más que comenzar.
Referencia
Do Language Models Plagiarize? Jooyoung Lee et al. arXiv:2203.07618v2 [cs.CL]. DOI:https://doi.org/10.48550/arXiv.2203.07618
- Audiencias TV ayer | ‘GH Dúo: Cuentas pendientes’ baja del doble dígito, aunque lidera en una noche marcada por los especiales electorales de Aragón
- Solo uno de cada tres séniors ve prioritario dejar en herencia la casa a los hijos: 'Quieren disfrutar del patrimonio en vida
- Premios Gaudí 2026, en directo: a qué hora es la gala y última hora de los nominados
- Trabajar 40 años y no llegar: la mitad de los futuros jubilados tendrá dificultades para mantener su nivel de vida
- El regreso de Puigdemont, la mediación del PNV y la “presión ambiental” como bazas de Sánchez para acercar a Junts
- Francesco Tonucci, pedagogo: 'La escuela está ocupando todo el tiempo de los niños, hay demasiadas horas de colegio
- Catalunya da por perdida la lucha contra algunas especies invasoras: 'Es más inteligente dejarlo para no tirar el dinero
- Qué elecciones hay en España en 2026: calendario de las autonómicas confirmadas y previstas