Transcripción automática de los audios de WhatsApp

Transcripción automática de los audios de WhatsApp

Transcripción automática de los audios de WhatsApp. Entiendo que se usen, son muy cómodos cuando quieres decir algo «»»»rápido»»»» y tienes las manos ocupadas, pero si pensamos en el receptor, en la persona que tiene que escuchar tu podcast, la realidad es que el audio presenta ciertos problemas que no se pueden dejar de lado: se tiene que escuchar entero para conocer todo el contenido, no se puede buscar, no es conciso y, sobre todo, no siempre es posible escuchar un audio. Si tienes alguna inquietud recuerda contactarnos a través de nuestras redes sociales, o regístrate y déjanos un comentario en esta página para poder ayudarte. También puedes participar en el WhatsApp Ecuador.

 

Este debate, el de audios sí y audios no, lo hemos tenido ya en alguna ocasión y hoy, como si un ser omnipotente, llámase Dios, llámese ingeniero de Meta, hubiera escuchado mis plegarias, he sido bendecido con la llegada de la última gran función de WhatsApp. Hablo, por supuesto, de la transcripción automática, función que ya he podido catar de primera mano. Y no, no vuelvo a escuchar una audio.

 

El problema de los audios

Son varios, pero el principal es que los mensajes de voz benefician enormemente al emisor, pero no al receptor. Un mensaje de audio corto bien podría ser un mensaje de texto de cuatro o cinco palabras (que se escriben en dos segundos). Un mensaje de voz largo podría ser una llamada que permita la comunicación bidireccional de manera instantánea. El asunto de ese audio de cinco minutos seguramente pueda averiguarse en una llamada de 30 segundos.

 

Además, a diferencia del texto, los audios permiten la divagación innecesaria fruto de un discurso improvisado y desestructurado. Eso hace que el mensaje central se diluya en anacolutos, digresiones, eeeeeh, mmm, un estornudo muy agradable de escuchar, el sonido de un coche o del viento, etc. Por no hablar de que no se pueden buscar usando el buscador de WhatsApp.

 

También tienen ventajas, tal y como abordamos en este artículo. Las puedes escuchar más abajo si quieres. Son solo cuatro minutos, muy cómodo, como los audios de WhatsApp.

 

Transcripción automática de los audios de WhatsApp

Para solucionar este problema, al menos de forma parcial, WhatsApp ha lanzado la transcripción automática. No está disponible para todos y su despliegue está siendo gradual, por lo que es posible que aún no esté disponible en tu terminal. Además, de estarlo, no estará activada por defecto. Para comprobarlo, ve a Ajustes > Chats y mira si aparece una opción llamada «Transcripción de mensajes de voz».

Si aparece, actívala y descarga el paquete de idiomas, son alrededor de 130 MB. Si no, tocará esperar.

 

Cómo funciona

Una vez tengamos configurada y activada la transcripción, simplemente hay que esperar a recibir un audio por WhatsApp. Al hacerlo, simplemente hay que dejar pulsado el mensaje, luego pulsar en los tres puntitos y, finalmente, en «Transcribir». WhatsApp comenzará a convertir el audio a texto y lo mostrará debajo, como en un pequeño miniapartado.

 

Sería un puntazo que la transcripción fuese automática y/o con menos pasos, pero para ser una primera aproximación está estupendo. Para un audio de 30 segundos tarda alrededor de cuatro segundos en transcribir. Para otro más largo, de cerca de cuatro minutos, ha tardado alrededor de 10-15 segundos.

 

¿Qué tal el rendimiento?

No es perfecto ni mucho menos, pero lo hace bien. Yo tengo un acento cordobés bastante marcado, hablo rápido (podéis ver cualquier TikTok de elyex para juzgar por vosotros mismos) y WhatsApp es capaz de transcribir mis audios sin problemas. Algunas veces, sobre todo en ciertos diptongos y conexiones rápidas entre palabras, falla u omite una de las palabras, pero nada que impida entender el mensaje general.

 

He probado el sistema con algunos amigos con diferentes acentos y la experiencia ha sido sorprendentemente positiva. En ningún caso perfecta, pero en todos los casos más que correcta y suficiente para conocer el contenido del audio sin escucharlo.

 

WhatsApp se come algunas palabras cuando se pronuncian rápido y, como suele ser habitual, falla enormemente cuando se usan marcas comerciales, nombres de productos, etc. Transcribiendo una conversación sobre impresoras 3D, WhatsApp no ha sido capaz de entender palabras como Prusa o BambuLab, pero lo dicho, es totalmente normal. Lo que sí entiende sin problema son los insultos y palabrotas.

 

Y se indexa, a medias. Los audios no se transcriben automáticamente, pero una vez los transcribimos, dicha transcripción permanece en el chat y es tratada por WhatsApp como texto. ¿Qué quiere decir eso? Que podemos usar el buscador para encontrar audios. Con una condición.

 

La transcripción no se muestra completa, sino que, por defecto, solo aparecen las tres primeras líneas. Para que podamos encontrar la transcripción usando el buscador, la palabra que busquemos tiene que ser visible en esa vista previa. Este mensaje lo podremos encontrar si buscamos «centro» porque esa palabra aparece en la vista previa, pero no se encontrará si buscamos «azul», palabra que aparece al final.

 

No es perfecto, pero gracias

Lejos de ser una transcripción sobresaliente como la que pueden conseguir herramientas como Whisper, lo que WhatsApp ha conseguido es más que suficiente para reducir la fricción de los audios. Escucharlos seguirá siendo la mejor forma de conocer todo el contenido por eso de la entonación y las emociones que solo la voz puede expresar, pero la transcripción nos permitirá hacer una lectura vertical, quedarnos con la idea general y ahorrarnos, si queremos, escuchar un podcast no solicitado.