La carrera por la transcripción automática de audio se intensifica, con Apple entrando en el terreno de juego con una nueva API que promete velocidad y eficiencia. La demanda de soluciones de transcripción precisas y rápidas está en auge, impulsada por el crecimiento del contenido de audio y video, la necesidad de accesibilidad y la automatización de flujos de trabajo en diversos sectores, desde el periodismo y la investigación hasta la medicina y la educación. El mercado global de software de reconocimiento de voz se valoró en 3.390 millones de dólares en 2023 y se proyecta que alcance los 8.990 millones de dólares para 2032, según datos de Fortune Business Insights, lo que subraya la importancia estratégica de esta tecnología. Además, la reciente adopción de modelos de lenguaje grandes (LLM) ha mejorado significativamente la precisión de la transcripción, aunque a menudo a costa de la velocidad de procesamiento.
Según la investigación publicada por 9to5Mac, se ha realizado una evaluación comparativa exhaustiva de la nueva API de transcripción de Apple frente a dos de los modelos más reconocidos del mercado: OpenAI Whisper Large V3 Turbo y Eleven Lab’s scribe v1, así como NVIDIA’s Parakeet. El análisis, iniciado por el desarrollador Prakash Pax, buscaba determinar la precisión de la solución de Apple en escenarios reales y comprender sus fortalezas y debilidades en relación con sus competidores.
La metodología empleada en la prueba incluyó la transcripción de un episodio de 7 minutos y 31 segundos del podcast 9to5Mac Daily, utilizando MacWhisper para ejecutar Whisper y Parakeet, y Yap, un proyecto de código abierto, para acceder a la API de Apple. Para garantizar la objetividad, se recurrió a herramientas de Hugging Face para calcular la Tasa de Error de Caracteres (CER) y la Tasa de Error de Palabras (WER), métricas estándar en la evaluación de sistemas de reconocimiento de voz. Estas métricas miden la cantidad de errores de sustitución, inserción y eliminación necesarios para transformar la transcripción generada en la transcripción de referencia, proporcionando una indicación cuantitativa de la precisión del modelo.
Los resultados iniciales revelaron diferencias significativas en los tiempos de transcripción. Parakeet v2 completó la tarea en tan solo 2 segundos, mientras que Whisper Large V3 Turbo tardó 40 segundos y la API de Apple, 9 segundos. Sin embargo, la velocidad no siempre se traduce en precisión. Whisper demostró ser el modelo más preciso, con un CER del 0.2% y un WER del 1.5%. Apple, aunque más rápido que Whisper, obtuvo un CER del 1.9% y un WER del 10.3%. Parakeet, como era de esperar, sacrificó precisión por velocidad, con un CER del 5.8% y un WER del 12.3%.
Para profundizar en el análisis, se solicitó a ChatGPT, Claude y Gemini que calcularan las mismas métricas utilizando sus propios algoritmos de normalización de texto. Estas pruebas adicionales revelaron variaciones en los resultados, dependiendo del enfoque de cada modelo para la limpieza y el preprocesamiento de los datos. Por ejemplo, ChatGPT se centró en la eliminación de puntuación y la conversión a minúsculas, mientras que Claude incluyó la normalización de comillas y guiones. Gemini, por su parte, simplificó el proceso eliminando puntuación y reemplazando guiones con espacios. Estas diferencias metodológicas resaltan la importancia de la estandarización en la evaluación de sistemas de transcripción.
En conclusión, la elección del modelo de transcripción óptimo depende de las necesidades específicas del usuario. Whisper sigue siendo la opción preferida para aplicaciones que requieren la máxima precisión, mientras que Parakeet es ideal para escenarios donde la velocidad es primordial. La API de Apple se posiciona como una alternativa prometedora, ofreciendo un equilibrio entre velocidad y precisión, y la ventaja de ejecutarse de forma nativa en dispositivos Apple, sin necesidad de dependencias externas. A medida que Apple continúe iterando y mejorando su API, es probable que veamos una mayor convergencia en términos de rendimiento y una adopción más amplia por parte de los desarrolladores.




