Microsoft анонсировала инструмент искусственного интеллекта под названием VALL-E, который может создавать убедительные реплики человеческих голосов. Для примера потребуется лишь 3-секундный голосовой образец.

Для обучения VALL-E было использовано 60 000 часов данных английской речи от более чем 7000 различных человек. В отличие от многих инструментов искусственного интеллекта, VALL-E может воспроизводить эмоции и тон говорящего, даже при создании записи слов, которые оригинальный говорящий никогда не произносил. Microsoft называет VALL-E «языковой моделью нейронного кодека», и она основана на технологии EnCodec, о которой Meta объявила в октябре прошлого года.

В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь, манипулируя формами сигналов, VALL-E анализирует человеческий голос. Затем разбивает полученную информацию на отдельные компоненты (называемые «токенами») благодаря EnCodec и использует обучающие данные, чтобы сопоставить то, что он услышал в качестве примера и то, как этот голос будет звучать, если произнести другие фразы.

VALL-E

Образцы голоса, предоставленные Microsoft, различаются по качеству. В то время как некоторые из них звучат естественно, другие явно сгенерированы машиной и звучат роботизированно. Конечно, ИИ со временем становится лучше, поэтому в будущем сгенерированные записи, вероятно, будут более убедительными. Кроме того, VALL-E использует только 3-секундные записи в качестве подсказки. Если бы эта технология использовалась с большим набором образцов, она, несомненно, могла бы создавать более реалистичные образцы.

Новая технология пока недоступна ни для широкой публики, ни для тестирования. Возможно, из-за того, что может быть использована в целях мошенничества. На сайте проекта есть множество примеров работы ИИ, с которыми может ознакомиться любой желающий.

Подпишись вTelegram
Bluetti выпустила портативную электростанцию ёмкостью 2 кВт·ч

Bluetti выпустила портативную электростанцию ёмкостью 2 кВт·ч

Fujifilm анонсировала 102-мегапиксельную кинокамеру GFX Eterna

Fujifilm анонсировала 102-мегапиксельную кинокамеру GFX Eterna

Представлены Red Magic 10 Pro и 10 Pro+ – 7050 мАч, 120 Вт, 144 Гц и Snapdragon 8 Elite

Представлены Red Magic 10 Pro и 10 Pro+ – 7050 мАч, 120 Вт, 144 Гц и Snapdragon 8 Elite

Представлен Vivo Y18t – 50 Мп, 5000 мАч и цена $113

Представлен Vivo Y18t – 50 Мп, 5000 мАч и цена $113

Microsoft снизила цену на Xbox Series X в ответ на PS5 Pro

Microsoft снизила цену на Xbox Series X в ответ на PS5 Pro

Замена дисплея в Pixel 9 Pro Fold обойдется дороже, чем MacBook Air M3

Замена дисплея в Pixel 9 Pro Fold обойдется дороже, чем MacBook Air M3

iPhone 17 Air будет толще iPhone 6, выпущенного в 2014-м

iPhone 17 Air будет толще iPhone 6, выпущенного в 2014-м

Valve выпустила Steam Deck OLED в белом цвете за $679

Valve выпустила Steam Deck OLED в белом цвете за $679

Apple усложнила взлом iPhone в iOS 18.1 – полиция недовольна

Apple усложнила взлом iPhone в iOS 18.1 – полиция недовольна

ChatGPT обошел по популярности Google Chrome и другие браузеры

ChatGPT обошел по популярности Google Chrome и другие браузеры

Apple объяснила, почему кнопка включения Mac mini расположена под корпусом

Apple объяснила, почему кнопка включения Mac mini расположена под корпусом

Sony заявляет, что стоимость PS5 Pro «не оказала отрицательного влияния» на продажи консоли

Sony заявляет, что стоимость PS5 Pro «не оказала отрицательного влияния» на продажи консоли