Microsoft анонсировала инструмент искусственного интеллекта под названием VALL-E, который может создавать убедительные реплики человеческих голосов. Для примера потребуется лишь 3-секундный голосовой образец.
Для обучения VALL-E было использовано 60 000 часов данных английской речи от более чем 7000 различных человек. В отличие от многих инструментов искусственного интеллекта, VALL-E может воспроизводить эмоции и тон говорящего, даже при создании записи слов, которые оригинальный говорящий никогда не произносил. Microsoft называет VALL-E «языковой моделью нейронного кодека», и она основана на технологии EnCodec, о которой Meta объявила в октябре прошлого года.
В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь, манипулируя формами сигналов, VALL-E анализирует человеческий голос. Затем разбивает полученную информацию на отдельные компоненты (называемые «токенами») благодаря EnCodec и использует обучающие данные, чтобы сопоставить то, что он услышал в качестве примера и то, как этот голос будет звучать, если произнести другие фразы.
Образцы голоса, предоставленные Microsoft, различаются по качеству. В то время как некоторые из них звучат естественно, другие явно сгенерированы машиной и звучат роботизированно. Конечно, ИИ со временем становится лучше, поэтому в будущем сгенерированные записи, вероятно, будут более убедительными. Кроме того, VALL-E использует только 3-секундные записи в качестве подсказки. Если бы эта технология использовалась с большим набором образцов, она, несомненно, могла бы создавать более реалистичные образцы.
Новая технология пока недоступна ни для широкой публики, ни для тестирования. Возможно, из-за того, что может быть использована в целях мошенничества. На сайте проекта есть множество примеров работы ИИ, с которыми может ознакомиться любой желающий.