...

SoundStorm от Google: искусственный интеллект генерирует максимально естественные диалоги

Поделиться статьей:
Содержание статьи

Google представила передовую модель SoundStorm для эффективной генерации звука без авторегрессии. Этот последний прорыв в технологии искусственного интеллекта позволяет создавать диалоги с разными голосами и открывает новые возможности для создания аудиоконтента из письменного текста и реалистичных подкастов. SoundStorm использует инновационную архитектуру, генерируя звук фрагментами по 30 секунд, что повышает его эффективность и отличает от предшественника АудиоLM.

SoundStorm обеспечивает высококачественный звук за короткое время генерации благодаря двунаправленному вниманию и параллельному декодированию на основе достоверности. Таким образом, SoundStorm открывает новые перспективы для создания качественного аудиоконтента и улучшения пользовательского опыта.

Новое оборудование Google TPU-v4 открывает двери к совершенно новым возможностям в генерации звука. Теперь модели могут создавать 30-секундные звуковые файлы за всего полсекунды, что является ошеломляющим прорывом в скорости работы.

Для обучения SoundStorm использовался огромный объем данных — более 100,000 часов диалогов, благодаря чему модель получила четкое понимание разговорной речи. Это позволило SoundStorm работать в два раза быстрее своего предшественника, не теряя при этом высокого качества звука, достигнутого благодаря AudioLM.

Уникальность этой модели заключается в том, что она генерирует звук, который полностью соответствует голосу и акустическим условиям, что открывает ее потенциал для масштабной генерации звуковых файлов. SoundStorm является важным прорывом в области звуковых технологий, и мы можем ожидать, что это только начало ее потенциала.

SoundStorm — уникальная технология, которая позволяет синтезировать естественные диалоги. Для этого используется этап преобразования текста в семантику SPEAR-TTS. Теперь пользователи могут легко управлять разговорным контентом и голосами динамиков, предоставляя стенограммы с поворотами динамиков и короткими голосовыми подсказками. SoundStorm демонстрирует свою универсальность и эффективность, синтезируя 30-секундные сегменты диалога всего за 2 секунды на одном TPU-v4. Эта технология может применяться в различных сферах, где нужны естественные диалоги, например, в таких как обучение и тренинги, медицина и многих других.

Поделиться статьей:
Подобранные статьи специально для вас
Новости

Платформа Voiceflow увеличила свою стоимость на 50% после привлечения инвестиций на ИИ

Компания Voiceflow привлекла 15$ млн, что привело к увеличению ее оценки на 50%. Полученные средства будут направлены на разработку генеративного ИИ Builder, который будет использоваться

Новости

Руководители и обычные сотрудники расходятся в мнениях о внедрении ИИ

Рядовые сотрудники американских компаний с восторгом воспринимают новые технологии, но утверждают, что руководство не проявляет достаточного интереса и замедляет внедрение. Это может привести к упущению