Políticas lingüísticas en internet
Así funciona AINA, el proyecto para que la tecnología entienda el catalán
La Generalitat destinará 13,5 millones de euros a una iniciativa de normalización lingüística que necesita la voz de los catalanes y a la que ya han contribuido 20.000 ciudadanos

escola / manu Mitru


Carles Planas Bou
Carles Planas BouPeriodista
Periodista especializado en tecnología y poder. Escribe sobre IA, capitalismo de plataformas, privacidad y derechos digitales. Excorresponsal político en Berlín entre 2015-2019. También ha cubierto la actualidad en Europa Central y Canadá. Graduado en Periodismo por la URL y máster en Relaciones Internacionales por la UAB. Ha colaborado con medios como TVE, Catalunya Ràdio, Deutsche Welle, TV3, Cadena SER, El Orden Mundial o Watif.
Es un consenso: el uso del catalán agoniza entre los más jóvenes y parte de ello se debe a la desigualdad que la lengua vive en internet, que favorece a las hegemónicas. La Generalitat quiere revertir esa situación y por eso el pasado martes presentó AINA, un proyecto que pretende que las máquinas puedan hablar y entender el catalán para agilizar su normalización en la era digital.
Si intentas dirigirte en catalán a Alexa, Siri o Google Assistant, sucederá que estos asistentes virtuales no te entenderán ni responderán a tu petición. Para que eso cambie primero hay que crear un corpus masivo de datos, gravar cientos de miles de palabras y frases en catalán para crear un diccionario de voces en catalán que permita a los sistemas de inteligencia artificial (IA) –desde asistentes a traductores automáticos— aprender a procesarlo y utilizarlo como hacen con otras lenguas.
La iniciativa impulsada por el Departament de Vicepresidència i Polítiques Digitals en colaboración con el Barcelona Supercomputing Center (BSC) está operativa desde el 2020 pero ahora se ha lanzado una campaña que pide a los ciudadanos “dar su voz”. En poco más de una semana la página web habilitada para recoger esas muestras de voz cuenta ya con los registros sonoros de más de 20.000 voluntarios.
Entrenar a las máquinas en catalán
Cada uno de estos registros servirá para crear una base de datos representativa del catalán que permita entrenar algortimos de Deep Learning –algo así como la red neuronal de esas máquinas— que después la industria pueda usar para desarrollar aplicaciones en catalán. "Hacemos la tarea lingüística que la empresa privada local no puede asumir por ser demasiado costosa y que las grandes compañías no hacen porque el catalán no es un mercado suficientemente atractivo para justificar esa inversión", explica a EL PERIÓDICO Marta Villegas, líder del grupo de minería de datos del BSC y responsable del proyecto AINA.
La intención de la Generalitat es normalizar todas las variantes dialectales y registros del catalán, ya sea formal o coloquial. Hasta ahora, la mayoría de voces recogidas hasta ahora es la de hombres de entre 30 y 50 años y con un registro de catalán central. Es por ello que la campaña pide que los voluntarios sean de todo tipo de edades, géneros y procedencias.
La iniciativa ha clasificado hasta 1.770 millones de metadatos asociados a palabras en 95 millones de frases, las variables que calculan necesarias para entender las peticiones más comunes de los usuarios. Los ciudadanos que quieran contribuir voluntariamente a esa normalización digital del catalán pueden acceder a la web para grabarse repitiendo esas palabras y frases. "Cuanto mayor sea la muestra de datos lingüísticos más robusto y perfeccionado será el sistema de comprensión", explica Villegas. Desde el BSC apuntan que se desarrollará "algún prototipo" para demostrar como las máquinas también pueden aprender catalán.
La actual base de datos cuenta con 1.000 horas de registros en catalán, que la iniciativa pretende duplicar. En su misión de recolectar la mayor cantidad posible de datos en catalán, AINA también usará los archivos de la Corporació Catalana de Mitjans Audiovisuals (CCMA) o del Consell de l’Audiovisual Català (CAC), así como los cedidos por organizaciones como Softcatalà, Racó Català o Enciclopèdia.cat. Los primeros datos públicos que el BSC ha usado para alimentar su base han sido las sesiones políticas del Parlament de Catalunya.
El proyecto tiene un presupuesto de 13,5 millones de euros hasta 2024, de los cuales 250.000 se destinarán a la fase inicial. "El catalán no está cubierto por ningún asistente de voz, es algo crítico", advierte Villegas. "Si nos acostumbramos a tener que hablar con las máquinas en otro idioma habremos perdido una gran oportunidad".
- El despacho de Los Morancos 'va como un tiro': cancela más de 14 millones en deudas a 217 familias
- Luis José Rodríguez Muñiz, catedrático de didáctica de las Matemáticas: 'No podemos seguir enseñando Matemáticas como en 1940
- Grave accidente en Milán con un avión con destino Asturias: muere succionado por el motor antes de despegar
- La Guardia Urbana denuncia por maltrato animal al propietario de un perro por encerrarlo dentro de un coche aparcado al sol
- Última hora del incendio en la Segarra: 1.000 hectáreas quemadas y confinados 450 vecinos
- Reestablecido el servicio de Rodalies en Viladecans tras el atropello de una persona
- 20 años de la primera cirugía robótica de España: la Fundació Puigvert operó dos cánceres de próstata con un Da Vinci de solo tres brazos
- Mapa del perímetro del incendio del Baix Ebre (Tarragona): 3.100 hectáreas quemadas y 18.000 vecinos confinados