Исследование, проведенное специалистами из Google, показало, что применение большой языковой модели в модели генерации звука значительно улучшает результаты распознавания речи и перевода.
AudioPaLM
На основе этой работы была создана AudioPaLM — новый инструмент, объединяющий модель генерации звука AudioLM и ведущую языковую модель Google PaLM-2. Эта система предназначена для работы с большими объемами текстовых материалов.
Новая модель AudioPaLM превосходит такие модели, как Whisper Large-v2 от OpenAI, mSLAM-CTC 2B и собственную USM-M от Google. AudioPaLM можно использовать в различных задачах, связанных с преобразованием речи в текст. Она может выполнять перевод для языков, которые не были частью ее обучения, только на основе короткой речевой подсказки.