LENGUA Y NUEVAS TECNOLOGÍAS
Softcatalà y Mozilla impulsan un asistente de voz libre en catalán
El proyecto anima a grabar textos leídos para crear un modelo informático que pueda usar cualquier programador
La inteligencia artificial no es en absoluto políglota. Los robots, como muchos turistas, apenas salen del inglés y la mayoría de asistentes que implican reconocimiento y tratamiento del lenguaje se programan desde esta lengua, lo que puede acabar excluyendo a la mayoría de la población mundial.
De los 7.623 millones de habitantes de la Tierra, apenas 378 millones tienen el inglés como primera lengua, y otros 745 millones lo entienden o lo hablan con fluidez como segundo o tercer idioma. El resto de personas, habla al menos uno de los más de 7.000 idiomas conocidos.
Un proyecto de la Fundación Mozilla, creada sin ánimo de lucro y que se nutre sobre todo de voluntarios, pretende corregir esta deficiencia y evitar, de paso, que todo el saber quede en manos de unas pocas empresas: Google, Amazon, Apple o Nuance. Google acaba de lanzar su asistente de voz en castellano hace un mes y Apple tiene reconocimiento de voz en catalán pero su asistente de voz, Siri, todavía no lo ha aprendido.
El proyecto Common Voice, que se abrió a todas las lenguas hace unas semanas, anima a todos los internautas a contribuir para crear un corpus lingüístico para cada idioma del mundo. Cualquier internauta puede proponer una lengua, y las comunidades de desarrolladores tendrán acceso a ese saber sin restricciones gracias a una licencia Creative Commons 0, la más próxima al dominio público.
Leer en voz alta
La propuesta para los usuarios es muy sencilla: se trata leer en voz alta un texto que aparece en la pantalla del navegador y permitir que el micrófono del ordenador o el móvil lo grabe. Mozilla recogerá datos que comparta el usuario, como acento, edad y género, que afirman que solo asociarán a las grabaciones para identificar variedades dialectales. También se puede contribuir enviando textos para ser leídos.
La intención es entrenar un sistema de reconocimiento de voz y lengua a base de que millones de personas lean los mismos textos que aparecen en pantalla. Solo así, el sistema es capaz de asociar voz y texto. Con esto, la idea es, utilizando redes neuronales, generar un modelo informático que se pueda usar en aplicaciones o en navegadores. "La idea es que lo pueda usar realmente cualquiera", afirma Jordi Mas, coordinador de Softcatalà. la entidad que se encarga de gestionar la versión catalana y que lleva 20 años traduciendo de forma voluntaria programas libres al catalán.
El Parlament, pocas voces
"Para que funcione necesitamos tener grabadas al menos un millar de horas de audios, con la mayor variedad de variantes dialectales del catalán, grabados por hombres y mujeres de todas las edades", señala. El objetivo de Softcatalà es contar con un primer modelo que funcione a primeros de año. "Ya habíamos intentado crear un modelo antes con el corpus de TV-3 y con el del Parlament. Con la televisión había el problema de los derechos de autor, que nos dejaban solo con sus programas de producción propia, y con el Parlament, había pocas voces", explica Mas.
El compromiso de la Fundación Mozilla, que está preparando también su propio navegador basado en voz, Firefox Scout, con el que quiere competir con el Alexa de Amazon, el Google Voice de Google o el Siri de Apple, es que aunque el proyecto Common Voice no se completara, harán públicos todos los datos que recojan para que sean reutilizados.
- Barcelona, “decepcionada” y “preocupada” por que la Generalitat anuncie una desalinizadora flotante en el puerto sin avisarle
- El presidente del PP de Esplugues coló durante años facturas personales como gastos del partido para pagarlas con dinero público
- Sumergir los pies en vinagre, la nueva tendencia que arrasa: estos son sus beneficios
- Airbnb aconseja a los propietarios que no anuncien las piscinas en sus alojamientos turísticos
- Muere ahogado un adolescente de Sant Fruitós de Bages al lanzarse a una poza
- Abre en Barcelona un museo dedicado a Belén Esteban
- García-Castellón y Gadea dejarán sus plazas en la Audiencia Nacional y Pedraz sopesa hacerse con el juzgado del Tsunami, por Ernesto Ekaizer
- Un aparatoso incendio en un solar de Montcada i Reixac obliga a evacuar un asentamiento barraquista