Modelos de lenguajes grandes: mejora de las capacidades con Audio Encoder

Los modelos de lenguajes grandes (LLM) se han vuelto cada vez más populares desde la introducción de ChatGPT de OpenAI. Estos modelos se destacan en diversas tareas, como responder preguntas, resumir texto, traducir idiomas y más. Los LLM se basan en subcampos de la inteligencia artificial, incluido el procesamiento del lenguaje natural, la comprensión del lenguaje natural, la visión por computadora y otros.

Los LLM se entrenan prediciendo la siguiente palabra en grandes cantidades de datos de texto. Esta formación les permite codificar una cantidad significativa de conocimiento sobre el mundo dentro de sus redes neuronales. Como resultado, los LLM son útiles para una amplia gama de tareas.

Investigaciones recientes han llevado las capacidades LLM un paso más allá al incorporar un codificador de audio en el modelo. Esto permite al LLM realizar tareas de reconocimiento automático de voz (ASR) y traducir la comunicación hablada a texto. Al integrar directamente representaciones de datos de audio en las incrustaciones de tokens de texto existentes, el LLM obtiene capacidades de reconocimiento de voz similares a las de su contraparte basada en texto.

El equipo de investigación ha demostrado la eficacia de este enfoque analizando las salidas del codificador de audio y confirmando la coincidencia precisa de las incrustaciones de audio con los tokens de texto correspondientes. El equipo utilizó el conjunto de datos Multilingual LibriSpeech (MLS) para la evaluación y descubrió que el LLM ajustado, conocido como LLaMA-7B, superó las líneas de base monolingües en un 18 % en tareas de reconocimiento de voz.

Además de la evaluación del desempeño, la investigación también exploró otros aspectos del LLM aumentado. Las pruebas de ablación demostraron que el LLM aún puede funcionar bien en tareas ASR multilingües incluso cuando está congelado durante el entrenamiento, sin cambiar sus parámetros.

El equipo también investigó los efectos de ampliar el codificador de audio y ajustar los parámetros asociados con la división del audio. Estas pruebas tenían como objetivo mejorar la eficiencia y eficacia del sistema ASR. Los resultados mostraron que los LLM pueden procesar entradas de audio de formato largo, incluso con codificadores de audio más grandes o pasos más largos.

En general, la investigación demuestra la promesa de utilizar LLM con codificadores de audio para mejorar las capacidades ASR multilingües. Con los avances en el procesamiento de audio, los LLM tienen el potencial de manejar una amplia gama de tareas basadas en audio de manera efectiva y eficiente.