Microsoft анонсировала инструмент искусственного интеллекта под названием VALL-E, который может создавать убедительные реплики человеческих голосов. Для примера потребуется лишь 3-секундный голосовой образец.

Для обучения VALL-E было использовано 60 000 часов данных английской речи от более чем 7000 различных человек. В отличие от многих инструментов искусственного интеллекта, VALL-E может воспроизводить эмоции и тон говорящего, даже при создании записи слов, которые оригинальный говорящий никогда не произносил. Microsoft называет VALL-E «языковой моделью нейронного кодека», и она основана на технологии EnCodec, о которой Meta объявила в октябре прошлого года.

В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь, манипулируя формами сигналов, VALL-E анализирует человеческий голос. Затем разбивает полученную информацию на отдельные компоненты (называемые «токенами») благодаря EnCodec и использует обучающие данные, чтобы сопоставить то, что он услышал в качестве примера и то, как этот голос будет звучать, если произнести другие фразы.

VALL-E

Образцы голоса, предоставленные Microsoft, различаются по качеству. В то время как некоторые из них звучат естественно, другие явно сгенерированы машиной и звучат роботизированно. Конечно, ИИ со временем становится лучше, поэтому в будущем сгенерированные записи, вероятно, будут более убедительными. Кроме того, VALL-E использует только 3-секундные записи в качестве подсказки. Если бы эта технология использовалась с большим набором образцов, она, несомненно, могла бы создавать более реалистичные образцы.

Новая технология пока недоступна ни для широкой публики, ни для тестирования. Возможно, из-за того, что может быть использована в целях мошенничества. На сайте проекта есть множество примеров работы ИИ, с которыми может ознакомиться любой желающий.

Подпишись вTelegram
Представлена Insta360 Ace Pro 2 – экшен-камера с оптикой Leica и записью 8K-видео

Представлена Insta360 Ace Pro 2 – экшен-камера с оптикой Leica и записью 8K-видео

Apple создает отдельный App Store для игр

Apple создает отдельный App Store для игр

Представлены Huawei nova 13 и nova 13 Pro – OLED 120 Гц, 5000 мАч, 100 Вт и спутниковая связь

Представлены Huawei nova 13 и nova 13 Pro – OLED 120 Гц, 5000 мАч, 100 Вт и спутниковая связь

Xiaomi представила 2К-монитор с частотой 180 Гц за $197

Xiaomi представила 2К-монитор с частотой 180 Гц за $197

Обновление до Android 15 превращает Pixel 6 в «кирпич»

Обновление до Android 15 превращает Pixel 6 в «кирпич»

OnePlus выпустила пауэрбанк с ёмкостью 12 000 мАч и 120-ваттной зарядкой

OnePlus выпустила пауэрбанк с ёмкостью 12 000 мАч и 120-ваттной зарядкой

Xiaomi 15 на Snapdragon 8 Elite и Android 15 протестировали в Geekbench

Xiaomi 15 на Snapdragon 8 Elite и Android 15 протестировали в Geekbench

Представлен Titan A900 – 256-ядерный ПК с NVIDIA Quadro, 6 ТБ ОЗУ и 8 ТБ SSD за $120 000

Представлен Titan A900 – 256-ядерный ПК с NVIDIA Quadro, 6 ТБ ОЗУ и 8 ТБ SSD за $120 000

Чехлы и защитные стекла для iPad: защита и стиль

Чехлы и защитные стекла для iPad: защита и стиль

Qualcomm представила новый флагманский чип Snapdragon 8 Elite с 3-нм техпроцессом

Qualcomm представила новый флагманский чип Snapdragon 8 Elite с 3-нм техпроцессом

Amazfit представила спортивные беспроводные наушники Up с шумоподавлением

Amazfit представила спортивные беспроводные наушники Up с шумоподавлением

Vivo выпустила два пауэрбанка на 20 000 мАч

Vivo выпустила два пауэрбанка на 20 000 мАч