Reconocimiento de voz

Puf, qué dejado tenía esto. Llevo casi un mes sin escribir nada. Entre prácticas de clase que se me van acumulando, y lo que tengo que ir haciendo del trabajo, apenas tengo tiempo de nada. No sólo para escribir por aquí, sino de leer por otras partes, con lo que tampoco tengo demasiado que contar. Pero vamos al tema.

El reconocimiento de voz es un campo de investigación de la informática y la IA que parece estar avanzando a pasos agigantados. Hace años que venden la moto de programas de texto a los que en lugar de teclear, dictas; o sistemas que ejecutan acciones ordenadas verbalmente en lugar de a golpe de ratón. Incluso una extraña combinación de ambas con el resultado de docenas de videos graciosos por internet. (vale que todos los enlaces son del Vista, pero ya hace tiempo que había visto cosas así).

El caso es que este último mes he podido ver dos ejemplos que muestran lo adelantado que está esté tema en la actualidad. A finales de octubre descubría en Microsiervos la aplicación Jibbigo, un programa (por ahora para el iPhone) que traduce inglés-español en tiempo real. Bueno, siendo exactos no es tiempo real como haría un traductor profesional traduciendo al paso, sino que dices una frase y haces que la traduzca al instante. Vale más un video que 24 000 por (duración en segudos del video) palabras.

Me parece sencillamente increible. Como bien dicen los Microsiervos inspirados en el Autoestopista Galáctico, imaginad dentro de unos años cuando esto funcione para cualquier idioma y pueda llevarse en la oreja como unos auriculares o un aparato auditivo de los que lleva la gente con sordera. Las posibilidades de comunicarse con cualquier otro ser humano de la tierra se amplian hasta el infinito.

Por otro lado, esta semana Google ha presentado en Youtube un sistema en el que está trabajando para añadir subtítulos de forma automática a los videos. Supongo que esto ha sido la evolución lógica de otra herramienta que sacaron el año pasado, Google Audio Indexing, que convertía a texto los diálogos de los videos para poder buscar en ellos según el contenido.

Aquí puede verse cómo el desarrollo de una herramienta con fines puramente comerciales y necesarios para Google, se ha utilizado para crear una aplicación 100% para el usuario. Estos fines que nombro son por un lado el ofrecer una búsqueda apropiada de videos por el contenido y no sólo por su nombre o descripción, y el conseguir que la publicidad dentro de los videos sea más acorde con el contenido de los mismos.

Pero ahora, un ingeniero sordo de la compañía pensó: ya tenemos el sonido convertido a texto ¿Por qué no permitir mostrarlo a los usuarios? Ya hace tiempo que se permitía que al subir el vídeo se acompañase de un fichero con subtítulos, pero es un mínimo porcentaje de videos los que los llevan, supongo que por lo tedioso del asunto (un archivo de subtítulos no es sólo texto, sino que cada frase ha de acompañarse con el segundo en el que debe aparecer y desaparecer). De todas formas, también han facilitado esta tarea, pues a la vez que presentaban el «Automatic Caption» han lanzado el «Automatic timing», que permite subir subtítulos sin definir los segundos, y su propia tecnología analiza el video y el texto y decide automáticamente cómo sincronizarlo.

Por supuesto, esto no acaba aquí. Todo esto de los subtítulos y el indexado por ahora lo tienen restringido a ciertos canales y, obviamente, sólo en inglés. Pero una vez la herramienta funcione suficientemente bien, estará disponible para cualquier video y, en un principio, podrán hacer uso de su traductor (video demostración) para subtitular videos en inglés a cualquier idioma. Esto a corto plazo, claro, tendremos que esperar más para que funcione en todas direcciones.

Únete a la conversación

Cancelar la respuesta

Deja un comentario