SoundStorm от Google: искусственный интеллект генерирует максимально естественные диалоги

Google представила передовую модель SoundStorm для эффективной генерации звука без авторегрессии. Этот последний прорыв в технологии искусственного интеллекта позволяет создавать диалоги с разными голосами и открывает новые возможности для создания аудиоконтента из письменного текста и реалистичных подкастов. SoundStorm использует инновационную архитектуру, генерируя звук фрагментами по 30 секунд, что повышает его эффективность и отличает от предшественника АудиоLM.

SoundStorm

SoundStorm обеспечивает высококачественный звук за короткое время генерации благодаря двунаправленному вниманию и параллельному декодированию на основе достоверности. Таким образом, SoundStorm открывает новые перспективы для создания качественного аудиоконтента и улучшения пользовательского опыта.

Новое оборудование Google TPU-v4 открывает двери к совершенно новым возможностям в генерации звука. Теперь модели могут создавать 30-секундные звуковые файлы за всего полсекунды, что является ошеломляющим прорывом в скорости работы.

Для обучения SoundStorm использовался огромный объем данных — более 100,000 часов диалогов, благодаря чему модель получила четкое понимание разговорной речи. Это позволило SoundStorm работать в два раза быстрее своего предшественника, не теряя при этом высокого качества звука, достигнутого благодаря AudioLM.

Уникальность этой модели заключается в том, что она генерирует звук, который полностью соответствует голосу и акустическим условиям, что открывает ее потенциал для масштабной генерации звуковых файлов. SoundStorm является важным прорывом в области звуковых технологий, и мы можем ожидать, что это только начало ее потенциала.

SoundStorm — уникальная технология, которая позволяет синтезировать естественные диалоги. Для этого используется этап преобразования текста в семантику SPEAR-TTS. Теперь пользователи могут легко управлять разговорным контентом и голосами динамиков, предоставляя стенограммы с поворотами динамиков и короткими голосовыми подсказками. SoundStorm демонстрирует свою универсальность и эффективность, синтезируя 30-секундные сегменты диалога всего за 2 секунды на одном TPU-v4. Эта технология может применяться в различных сферах, где нужны естественные диалоги, например, в таких как обучение и тренинги, медицина и многих других.

Александр Бондаренко

Все статьи автора

Свежие публикации

Показать все

Александр Бондаренко

30.09.2023

Что может голосовой бот? Рассказываем, с какими задачами идеально справится робот

Мы уже рассказывали, как можно использовать робота в различных сферах. А сегодня рассмотрим задачи, с которыми виртуальный помощник справится лучше

Новости

Александр Бондаренко

29.09.2023

Новая ИИ-модель от Цукерберга

AudioCraft Компания Марка Цукерберга представила новую генеративную музыкальную модель искусственного интеллекта под названием AudioCraft. Она объединяет в себе MusicGen и