Взятие Microsoft на синтез речи, Microsoft VALL-E было объявлено в документ, опубликованный компанией. Аудиомодели требуется только 3-секундный аудиофайл для обработки данного ввода.

Microsoft только что запустила Microsoft VALL-E, новую языковую модель для синтеза речи (TTS), которая использует коды аудиокодеков в качестве промежуточных представлений. Он был предварительно обучен на 60 000 часов данных английской речи, а затем продемонстрировал способность к обучению в контексте в условиях нулевого выстрела.

Майкрософт ВАЛЛ-И
Microsoft VALL-E — это языковая модель для синтеза речи.

Microsoft VALL-E может воспроизводить высококачественную персонализированную речь с помощью всего лишь трехсекундной зарегистрированной записи наклонного динамика, выступающего в качестве акустического стимула. Это достигается без необходимости дополнительного структурного проектирования, предварительно разработанных акустических характеристик или точной настройки. Он поддерживает контекстное обучение и подходы TTS с нулевым выстрелом на основе подсказок. Похоже, что масштабирование частично контролируемых данных для TTS использовалось недостаточно, потому что Microsoft использовала значительный объем полуконтролируемых данных для построения обобщенной системы TTS в измерении говорящего.

Что вы можете делать с Microsoft VALL-E?

По словам исследователей, Microsoft VALL-E представляет собой «языковую модель нейронного кодека», которая была обучена с использованием дискретных кодов, «полученных из ранее существовавшей модели нейронного аудиокодека». Он был обучен на 60 тысячах часов речи, что «в сотни раз больше, чем существующие системы», говорится в заявлении. Эти примеры убедительны по сравнению с предыдущими попытками, которые, очевидно, были роботами, хотя ИИ уже давно существует и может реалистично имитировать человеческую речь.

  Google интегрирует быстрое обмен с iPhone в новой бета -версии
Майкрософт ВАЛЛ-И
Microsoft VALL-E обучилась на 60 тысячах часов речи

По словам исследователей, Microsoft VALL-E может «сохранять эмоции говорящего и звуковую среду» подсказки. Хотя это впечатляет, технологиям еще далеко до замены актеров озвучивания, потому что поиск подходящего тона и эмоций во время выступления отличается. Даже продвинутая версия Microsoft VALL-E не сможет работать так же хорошо, как опытный профессионал, однако компании часто отдают предпочтение экономичности, а не качеству.

На Демонстрация Microsoft на GitHubвы можете прослушать некоторые образцы.

Возможности Microsoft VALL-E

Хотя Microsoft VALL-E очень нов, он уже имеет много функций.

Синтез разнообразия: Поскольку Microsoft VALL-E создает дискретные токены с использованием метода выборки, его выходные данные различаются для одного и того же входного текста. Следовательно, он может синтезировать различные персонализированные образцы речи, используя множество случайных начальных значений.

Поддержание акустической среды: Microsoft VALL-E может воспроизводить настраиваемую речь, сохраняя при этом акустическую среду подсказки динамика. По сравнению с базовым уровнем VALL-E обучается на большом наборе данных с большим количеством акустических переменных. Аудио и транскрипция были созданы с использованием образцов из набора данных Fisher.

  Apple улучшает Siri, чтобы лучше распознавать людей с нетипичной речью
Майкрософт ВАЛЛ-И
Microsoft VALL-E может воспроизводить настраиваемую речь, сохраняя при этом акустическую среду подсказки динамика.

Поддержание эмоций говорящего: Используя базу данных эмоциональных голосов в качестве ресурса, например, звуковых подсказок, Microsoft VALL-E может создавать индивидуальную речь, сохраняя при этом эмоциональный тон подсказки говорящего. Традиционные подходы обучают модель, сопоставляя речь с транскрипцией и меткой эмоций в наборе контролируемых эмоциональных данных TTS. ВАЛЛ-И умеет сохранять эмоции даже в безвыходной ситуации.

Microsoft VALL-E по-прежнему имеет проблемы со структурой модели, охватом данных и надежностью синтеза.

Как работает Microsoft ВАЛЛ-И?

Microsoft использовала LibriLight, звуковую библиотеку, созданную Meta, для тренировки навыков синтеза VALL-voice E. Большинство из 60 000 часов англоязычной речи взяты из общедоступных аудиокниг LibriVox, и на них говорят более 7 000 разных людей. Голос в трехсекундном образце должен быть очень похож на голос в обучающих данных для VALL-E, чтобы получить удовлетворительный результат.

Майкрософт ВАЛЛ-И
7000 разных людей помогли Microsoft VALL-E построить

Microsoft предлагает десятки звуковых примеров модели ИИ в действии на странице примеров VALL-E. «Speaker Prompt», один из примеров, представляет собой трехсекундный звук, который ВАЛЛ-И приказано имитировать. «Основная правда» — это ранее записанный отрывок из выступления этого оратора, который используется в качестве эталона (что-то вроде «контроля» в эксперименте). Образец «VALL-E» является результатом модели VALL-E, а образец «Baseline» является примером синтеза, произведенного с помощью традиционного подхода синтеза речи.

  Удобные платформы: изучение лучших вариантов беспрепятственной торговли криптовалютами

В то время как Microsoft VALL-E вошла в историю как первый, но, конечно, не последний крупный проект ИИ 2023 года, технологический гигант оказал финансовую поддержку OpenAI Point-E, которая была опубликована в последние недели 2022 года.

 

Source: Объяснение Microsoft VALL-E: голос DALL-E