Группа ученых из ISSAI в Казахстане представила новую технологию способную распознавать речь на 10 различных тюркских языках. Модель успешно справляется с распознаванием азербайджанского, башкирского, чувашского, казахского, киргизского, саха, татарского, турецкого, уйгурского и узбекского языков.
Новая технология для распознавания речи от ученых из Казахстана
В ходе исследования было обнаружено, что многоязычные модели, обученные с использованием данных, содержащих смешанную речь, показывали более надежные результаты по сравнению с базовыми одноязычными моделями. Лучшая модель достигла снижения частоты ошибок в символах на 56% и в словах на 54%.
В рамках исследования был также представлен корпус турецкой речи с открытым исходным кодом. Этот корпус содержит 218,2 часа расшифрованной речи, включающей 186 171 высказывание, и является крупнейшим общедоступным набором данных на турецком языке. Наборы данных и коды, используемые для обучения моделей, доступны для загрузки на следующем ресурсе: https://github.com/IS2AI/TurkicASR.
Для демонстрации практической пользы многоязычной модели автоматического распознавания речи для тюркских языков ISSAI разработала демонстрационную программу, которая способна распознавать десять тюркских языков, а также русский и английский языки.