Microsoft анонсировала инструмент искусственного интеллекта под названием VALL-E, который может создавать убедительные реплики человеческих голосов. Для примера потребуется лишь 3-секундный голосовой образец.

Для обучения VALL-E было использовано 60 000 часов данных английской речи от более чем 7000 различных человек. В отличие от многих инструментов искусственного интеллекта, VALL-E может воспроизводить эмоции и тон говорящего, даже при создании записи слов, которые оригинальный говорящий никогда не произносил. Microsoft называет VALL-E «языковой моделью нейронного кодека», и она основана на технологии EnCodec, о которой Meta объявила в октябре прошлого года.

В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь, манипулируя формами сигналов, VALL-E анализирует человеческий голос. Затем разбивает полученную информацию на отдельные компоненты (называемые «токенами») благодаря EnCodec и использует обучающие данные, чтобы сопоставить то, что он услышал в качестве примера и то, как этот голос будет звучать, если произнести другие фразы.

VALL-E

Образцы голоса, предоставленные Microsoft, различаются по качеству. В то время как некоторые из них звучат естественно, другие явно сгенерированы машиной и звучат роботизированно. Конечно, ИИ со временем становится лучше, поэтому в будущем сгенерированные записи, вероятно, будут более убедительными. Кроме того, VALL-E использует только 3-секундные записи в качестве подсказки. Если бы эта технология использовалась с большим набором образцов, она, несомненно, могла бы создавать более реалистичные образцы.

Новая технология пока недоступна ни для широкой публики, ни для тестирования. Возможно, из-за того, что может быть использована в целях мошенничества. На сайте проекта есть множество примеров работы ИИ, с которыми может ознакомиться любой желающий.

Подпишись вTelegram
Полиция Испании считает, что каждый владелец Google Pixel – наркоторговец

Полиция Испании считает, что каждый владелец Google Pixel – наркоторговец

Представлен Moto G100 Pro – OLED, 6720 мАч и IP69 за $195

Представлен Moto G100 Pro – OLED, 6720 мАч и IP69 за $195

Honor представила ноутбук MagicBook Art 14 (2025)

Honor представила ноутбук MagicBook Art 14 (2025)

Microsoft уволила 9 000 сотрудников – почти 50% в студиях Xbox

Microsoft уволила 9 000 сотрудников – почти 50% в студиях Xbox

Как купить ноутбук и не переплатить: 5 советов от экспертов

Как купить ноутбук и не переплатить: 5 советов от экспертов

Google оштрафовали на $314 млн за фоновое извлечение данных с Android

Google оштрафовали на $314 млн за фоновое извлечение данных с Android

Представлен Honor MagicPad 3 – Snapdragon 8 Gen 3 и 165 Гц за $418

Представлен Honor MagicPad 3 – Snapdragon 8 Gen 3 и 165 Гц за $418

Lexar представила портативный SSD с поддержкой MagSafe

Lexar представила портативный SSD с поддержкой MagSafe

Представлен Honor Magic V5 – самый тонкий складной смартфон с батареей на 6100 мАч

Представлен Honor Magic V5 – самый тонкий складной смартфон с батареей на 6100 мАч

NVIDIA GeForce RTX 5060 Ti с 8 ГБ оказалась никому не нужна

NVIDIA GeForce RTX 5060 Ti с 8 ГБ оказалась никому не нужна

ТОП-10 самых мощных смартфонов за июнь 2025 года

ТОП-10 самых мощных смартфонов за июнь 2025 года

Представлены Nothing Headphone (1) – первые полноразмерные наушники бренда

Представлены Nothing Headphone (1) – первые полноразмерные наушники бренда