Ir a contenido

LENGUA Y NUEVAS TECNOLOGÍAS

Softcatalà y Mozilla impulsan un asistente de voz libre en catalán

El proyecto anima a grabar textos leídos para crear un modelo informático que pueda usar cualquier programador

Carmen Jané

Altavoz de Amazon con el asistente virtual Alexa integrado.

Altavoz de Amazon con el asistente virtual Alexa integrado.

La inteligencia artificial no es en absoluto políglota. Los robots, como muchos turistas, apenas salen del inglés y la mayoría de asistentes que implican reconocimiento y tratamiento del lenguaje se programan desde esta lengua, lo que puede acabar excluyendo a la mayoría de la población mundial.

De los 7.623 millones de habitantes de la Tierra, apenas 378 millones tienen el inglés como primera lengua, y otros 745 millones lo entienden o lo hablan con fluidez como segundo o tercer idioma. El resto de personas, habla al menos uno de los más de 7.000 idiomas conocidos.

Un proyecto de la Fundación Mozilla, creada sin ánimo de lucro y que se nutre sobre todo de voluntarios, pretende corregir esta deficiencia y evitar, de paso, que todo el saber quede en manos de unas pocas empresas: Google, Amazon, Apple o Nuance. Google acaba de lanzar su asistente de voz en castellano hace un mes y Apple tiene reconocimiento de voz en catalán pero su asistente de voz, Siri, todavía no lo ha aprendido.

El proyecto Common Voice, que se abrió a todas las lenguas hace unas semanas, anima a todos los internautas a contribuir para crear un corpus lingüístico para cada idioma del mundo. Cualquier internauta puede proponer una lengua, y las comunidades de desarrolladores tendrán acceso a ese saber sin restricciones gracias a una licencia Creative Commons 0, la más próxima al dominio público.

Leer en voz alta

La propuesta para los usuarios es muy sencilla: se trata leer en voz alta un texto que aparece en la pantalla del navegador y permitir que el micrófono del ordenador o el móvil lo grabe. Mozilla recogerá datos que comparta el usuario, como acento, edad y género, que afirman que solo asociarán a las grabaciones para identificar variedades dialectales. También se puede contribuir enviando textos para ser leídos.

La intención es entrenar un sistema de reconocimiento de voz y lengua a base de que millones de personas lean los mismos textos que aparecen en pantalla. Solo así, el sistema es capaz de asociar voz y texto. Con esto, la idea es, utilizando redes neuronales, generar un modelo informático que se pueda usar en aplicaciones o en navegadores. "La idea es que lo pueda usar realmente cualquiera", afirma Jordi Mas, coordinador de Softcatalà. la entidad que se encarga de gestionar la versión catalana y que lleva 20 años traduciendo de forma voluntaria programas libres al catalán.   

El Parlament, pocas voces

"Para que funcione necesitamos tener grabadas al menos un millar de horas de audios, con la mayor variedad de variantes dialectales del catalán, grabados por hombres y mujeres de todas las edades", señala. El objetivo de Softcatalà es contar con un primer modelo que funcione a primeros de año. "Ya habíamos intentado crear un modelo antes con el corpus de TV-3 y con el del Parlament. Con la televisión había el problema de los derechos de autor, que nos dejaban solo con sus programas de producción propia, y con el Parlament, había pocas voces", explica Mas.

El compromiso de la Fundación Mozilla, que está preparando también su propio navegador basado en voz, Firefox Scout, con el que quiere competir con el Alexa de Amazon, el Google Voice de Google o el Siri de Apple, es que aunque el proyecto Common Voice no se completara, harán públicos todos los datos que recojan para que sean reutilizados.

Para darle la mejor experiencia posible estamos cambiando nuestro sistema de comentarios, que pasa a ser Disqus, que gestiona 50 millones de comentarios en medios de todo el mundo todos los meses. Nos disculpamos si estos primeros días hay algún proceso extra de 'login' o el servicio no funciona al 100%.