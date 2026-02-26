En la actualidad, cada vez tenemos más presentes en nuestra vida cotidiana las herramientas de IA generativas, pero no siempre somos conscientes del impacto que pueden tener en áreas como la lengua. Así lo indica un estudio de la Universitat Pompeu Fabra (UPF) que ha advertido de que algunas de las IA generativas más populares, como ChatGPT o Gemini, están contribuyendo a propagar formas no normativas del catalán e identifican la influencia del castellano en su modelo de entrenamiento como una de las principales causas.

Los resultados del trabajo, publicado en un artículo en la revista 'Linguamática', han lanzado una señal de alerta a los responsables de la política lingüística. Así, los autores del texto han pedido evaluar este fenómeno y el impacto que estas tecnologías pueden tener en el futuro de la lengua para tomar decisiones informadas.

Sesgos hacia idiomas más hablados

El estudio ha explicado que los modelos lingüísticos de estas herramientas de IA generativa están sesgados, ya que favorecen el uso de las estructuras gramaticales y del léxico de las lenguas con más hablantes (inglés, español…), que han constituido la base de su entrenamiento. Esta investigación de la UPF ha sido pionera en demostrar que también existe un sesgo hacia el castellano, pues la preferencia por la sintaxis del inglés ya había sido probada en diversos trabajos.

La investigadora Mireia Almena, coautora del artículo, ha afirmado que estos modelos de IA no solo reproducen el lenguaje, sino que también influyen en su evolución y pueden tener un impacto mucho mayor en lenguas como el catalán, con menor volumen de contenido escrito en medios digitales.

Seis modelos de lenguaje

Los investigadores han analizado seis modelos de lenguaje extensos similares a los que usan algunas herramientas populares, como ChatGPT o Gemini. Cuatro de estos modelos eran multilingües y dos, monolingües especializados en catalán. Estos últimos también han sido entrenados en otras lenguas, ya sea en etapas iniciales de su desarrollo o de manera no intencionada, porque no se han podido depurar adecuadamente las bases de datos que fundamentan su aprendizaje.

Concretamente, se han examinado las preferencias de estos seis modelos hacia formas normativas y no normativas del catalán a partir de un corpus de evaluación de 160 oraciones correspondientes a ocho estructuras gramaticales diferentes, que suelen plantear dudas en cuanto al uso de la preposición adecuada.

Algunas de estas oraciones pueden dar lugar a usos no normativos del catalán por influencia del castellano, por ejemplo en el caso del uso o no de preposición delante del objeto directo. Otras pueden suscitar formas no normativas del catalán por otros motivos. Por ejemplo, se podría utilizar incorrectamente la preposición «de» en lugar de «a».

55% de errores por el castellano

La investigación ha señalado que, a la hora de elegir entre una preposición normativa y una no normativa, las IA multilingües se equivocan en un 55 % de los casos por influencia del castellano y solo en un 4 % de los casos por otros motivos.

Los resultados también han mostrado que los modelos multilingües son los que utilizan más formas no normativas del catalán por influencia del castellano, representando el mismo 55% de desvíos del catalán normativo frente al 27% de los modelos monolingües por esta razón. En cambio, si se examina la probabilidad media de hacer un uso no normativo en catalán por otros motivos, los resultados en ambos tipos de modelos son similares, se sitúan en torno al 4 %.

El otro autor del trabajo, Thomas Brochhagen, ha señalado que estos resultados “muestran la importancia de verificar las preferencias lingüísticas de los modelos de lenguaje, especialmente en lenguas minoritarias, para mantener este debate de manera informada, elaborar políticas lingüísticas que tengan en cuenta el impacto de las nuevas tecnologías y actuar en consecuencia”.