mozilla logo

Mozilla anuncia su reconocimiento de voz de código abierto

El reconocimiento de voz no es algo nuevo. Ya en la segunda mitad de los 90 se popularizaron este tipo de programas con Via Voice de IBM como referencia.

Mozilla ha estado buena parte de esta década de capa caída. Esa decadencia llegó a su culmen con el abandono de numerosos proyectos como su sistema operativo para teléfonos Firefox OS, algunas funciones de su navegador o servicios como Persona.org.

De esas cenizas, la organización lleva unos meses resurgiendo y de ellas ha nacido un nuevo Firefox que dejá atrás su mayor hándicap: un programa monohilo en una escena que lleva más de una década conviviendo con procesadores multinúcleo.

Ahora han anunciado un proyecto bastante ambicioso e interesante donde se vuelve a la filosofía pre-internet, es decir, que el software se ejecute en tu PC. Los servicios de reconocimiento de voz más célebres a día de hoy son los proporcionados por Apple y Google.

Deep Speech
Deep Speech junto a Common Voice

Como suele pasar con este tipo de tecnologías, las barreras de entrada son enormes por la gran inversión inicial necesaria. Esta inversión se traduce en la necesidad de entrenar a la máquina con textos asociados a su lectura por humanos, lo cual requiere a personas dedicadas a leer cientos de horas de textos en múltiples idiomas.

En estos momentos, los únicos productos competentes son o bien de código cerrado y de pago, o bien servicios ejecutándose en ordenadores de grandes compañías (alias la nube). Para hacer frente a estos mastodontes tecnológicos, Mozilla ha lanzado dos proyectos: DeepSpeech y Common Voice con la idea de ofrecer un servicio alternativo libre y de calidad.

DeepSpeech se está desarrollando por la comunidad, empresas e investigadores y en él se están aplicando técnicas de aprendizaje que de momento tiene un error de interpretación del 6.5%. La versión que se ha presentado hace unas horas está disponibles en Python, NodeJS y un binario para línea de comandos.

Pero como se ha dicho antes, el software por sí mismo no sirve de nada. Hace falta entrenarlo y ahí es donde entra el poder de la comunidad que puede ayudar con tan solo grabarse leyendo unos textos. De esto se va a encargar Common Voice que lleva en funcionamiento desde este verano y que de momento tiene una colección de 400.000 grabaciones procedente de 20.000 participantes con un total de 500 horas. Eso sí, de momento sólo está disponible en inglés. El resto de idiomas empezará a estar disponible a partir del año que viene.

Para más información puedes leer esta entrada del blog de Mozilla.

Ver comentarios