Google представила передовую модель SoundStorm для эффективной генерации звука без авторегрессии. Этот последний прорыв в технологии искусственного интеллекта позволяет создавать диалоги с разными голосами и открывает новые возможности для создания аудиоконтента из письменного текста и реалистичных подкастов. SoundStorm использует инновационную архитектуру, генерируя звук фрагментами по 30 секунд, что повышает его эффективность и отличает от предшественника АудиоLM.
SoundStorm
SoundStorm обеспечивает высококачественный звук за короткое время генерации благодаря двунаправленному вниманию и параллельному декодированию на основе достоверности. Таким образом, SoundStorm открывает новые перспективы для создания качественного аудиоконтента и улучшения пользовательского опыта.
Новое оборудование Google TPU-v4 открывает двери к совершенно новым возможностям в генерации звука. Теперь модели могут создавать 30-секундные звуковые файлы за всего полсекунды, что является ошеломляющим прорывом в скорости работы.
Для обучения SoundStorm использовался огромный объем данных — более 100,000 часов диалогов, благодаря чему модель получила четкое понимание разговорной речи. Это позволило SoundStorm работать в два раза быстрее своего предшественника, не теряя при этом высокого качества звука, достигнутого благодаря AudioLM.
Уникальность этой модели заключается в том, что она генерирует звук, который полностью соответствует голосу и акустическим условиям, что открывает ее потенциал для масштабной генерации звуковых файлов. SoundStorm является важным прорывом в области звуковых технологий, и мы можем ожидать, что это только начало ее потенциала.
SoundStorm — уникальная технология, которая позволяет синтезировать естественные диалоги. Для этого используется этап преобразования текста в семантику SPEAR-TTS. Теперь пользователи могут легко управлять разговорным контентом и голосами динамиков, предоставляя стенограммы с поворотами динамиков и короткими голосовыми подсказками. SoundStorm демонстрирует свою универсальность и эффективность, синтезируя 30-секундные сегменты диалога всего за 2 секунды на одном TPU-v4. Эта технология может применяться в различных сферах, где нужны естественные диалоги, например, в таких как обучение и тренинги, медицина и многих других.