Educación y tecnología
Un estudio de la UPF avisa de que algunas IA generativas propagan formas no normativas del catalán
El trabajo insta a los responsables de política lingüística a evaluar el impacto de la tecnología en el futuro de la lengua
La IA cambia las reglas del juego en la universidad: "Los estudiantes aprenden con ChatGPT, no a pesar de él"

Alumnos haciendo las pruebas PAU en la Universitat Pompeu Fabra / Ferran Nadeu / EPC

En la actualidad, cada vez tenemos más presentes en nuestra vida cotidiana las herramientas de IA generativas, pero no siempre somos conscientes del impacto que pueden tener en áreas como la lengua. Así lo indica un estudio de la Universitat Pompeu Fabra (UPF) que ha advertido de que algunas de las IA generativas más populares, como ChatGPT o Gemini, están contribuyendo a propagar formas no normativas del catalán e identifican la influencia del castellano en su modelo de entrenamiento como una de las principales causas.
Los resultados del trabajo, publicado en un artículo en la revista 'Linguamática', han lanzado una señal de alerta a los responsables de la política lingüística. Así, los autores del texto han pedido evaluar este fenómeno y el impacto que estas tecnologías pueden tener en el futuro de la lengua para tomar decisiones informadas.
Sesgos hacia idiomas más hablados
El estudio ha explicado que los modelos lingüísticos de estas herramientas de IA generativa están sesgados, ya que favorecen el uso de las estructuras gramaticales y del léxico de las lenguas con más hablantes (inglés, español…), que han constituido la base de su entrenamiento. Esta investigación de la UPF ha sido pionera en demostrar que también existe un sesgo hacia el castellano, pues la preferencia por la sintaxis del inglés ya había sido probada en diversos trabajos.
La investigadora Mireia Almena, coautora del artículo, ha afirmado que estos modelos de IA no solo reproducen el lenguaje, sino que también influyen en su evolución y pueden tener un impacto mucho mayor en lenguas como el catalán, con menor volumen de contenido escrito en medios digitales.
Seis modelos de lenguaje
Los investigadores han analizado seis modelos de lenguaje extensos similares a los que usan algunas herramientas populares, como ChatGPT o Gemini. Cuatro de estos modelos eran multilingües y dos, monolingües especializados en catalán. Estos últimos también han sido entrenados en otras lenguas, ya sea en etapas iniciales de su desarrollo o de manera no intencionada, porque no se han podido depurar adecuadamente las bases de datos que fundamentan su aprendizaje.
Concretamente, se han examinado las preferencias de estos seis modelos hacia formas normativas y no normativas del catalán a partir de un corpus de evaluación de 160 oraciones correspondientes a ocho estructuras gramaticales diferentes, que suelen plantear dudas en cuanto al uso de la preposición adecuada.
Algunas de estas oraciones pueden dar lugar a usos no normativos del catalán por influencia del castellano, por ejemplo en el caso del uso o no de preposición delante del objeto directo. Otras pueden suscitar formas no normativas del catalán por otros motivos. Por ejemplo, se podría utilizar incorrectamente la preposición «de» en lugar de «a».
55% de errores por el castellano
La investigación ha señalado que, a la hora de elegir entre una preposición normativa y una no normativa, las IA multilingües se equivocan en un 55 % de los casos por influencia del castellano y solo en un 4 % de los casos por otros motivos.
Los resultados también han mostrado que los modelos multilingües son los que utilizan más formas no normativas del catalán por influencia del castellano, representando el mismo 55% de desvíos del catalán normativo frente al 27% de los modelos monolingües por esta razón. En cambio, si se examina la probabilidad media de hacer un uso no normativo en catalán por otros motivos, los resultados en ambos tipos de modelos son similares, se sitúan en torno al 4 %.
El otro autor del trabajo, Thomas Brochhagen, ha señalado que estos resultados “muestran la importancia de verificar las preferencias lingüísticas de los modelos de lenguaje, especialmente en lenguas minoritarias, para mantener este debate de manera informada, elaborar políticas lingüísticas que tengan en cuenta el impacto de las nuevas tecnologías y actuar en consecuencia”.
- Pere, con depresión severa desde hace 20 años, pide la eutanasia por tercera vez: 'Mi vida no es digna, padezco un sufrimiento crónico e intratable
- Francisca Cadenas fue asesinada a golpes y descuartizada, según la autopsia
- El único colegio de Girona en la lista Forbes 2026 de las mejores escuelas de España: método Montessori y huertos en cada aula
- La adolescencia dispara el 'burnout' en las madres: 'No es que te quemes, es que vives en un horno
- El tiempo hoy en Catalunya, en directo: Última hora de las lluvias y las alerta del Meteocat por viento y nieve
- Karlos Arguiñano publica libro y prepara un documental sobre su vida: 'Me quitaron la estrella Michelin cuando empecé en la tele
- MAPA | Situación sin precedentes: 47 embalses de España alcanzan lleno total tras las intensas lluvias
- Se derrumba parte de un puente de La Garriga afectado por las obras de la R3 y el Ayuntamiento apunta a una 'mala ejecución