Взятие Microsoft на синтез речи, Microsoft VALL-E было объявлено в документ, опубликованный компанией. Аудиомодели требуется только 3-секундный аудиофайл для обработки данного ввода.
Microsoft только что запустила Microsoft VALL-E, новую языковую модель для синтеза речи (TTS), которая использует коды аудиокодеков в качестве промежуточных представлений. Он был предварительно обучен на 60 000 часов данных английской речи, а затем продемонстрировал способность к обучению в контексте в условиях нулевого выстрела.
Microsoft VALL-E может воспроизводить высококачественную персонализированную речь с помощью всего лишь трехсекундной зарегистрированной записи наклонного динамика, выступающего в качестве акустического стимула. Это достигается без необходимости дополнительного структурного проектирования, предварительно разработанных акустических характеристик или точной настройки. Он поддерживает контекстное обучение и подходы TTS с нулевым выстрелом на основе подсказок. Похоже, что масштабирование частично контролируемых данных для TTS использовалось недостаточно, потому что Microsoft использовала значительный объем полуконтролируемых данных для построения обобщенной системы TTS в измерении говорящего.
Что вы можете делать с Microsoft VALL-E?
По словам исследователей, Microsoft VALL-E представляет собой «языковую модель нейронного кодека», которая была обучена с использованием дискретных кодов, «полученных из ранее существовавшей модели нейронного аудиокодека». Он был обучен на 60 тысячах часов речи, что «в сотни раз больше, чем существующие системы», говорится в заявлении. Эти примеры убедительны по сравнению с предыдущими попытками, которые, очевидно, были роботами, хотя ИИ уже давно существует и может реалистично имитировать человеческую речь.
По словам исследователей, Microsoft VALL-E может «сохранять эмоции говорящего и звуковую среду» подсказки. Хотя это впечатляет, технологиям еще далеко до замены актеров озвучивания, потому что поиск подходящего тона и эмоций во время выступления отличается. Даже продвинутая версия Microsoft VALL-E не сможет работать так же хорошо, как опытный профессионал, однако компании часто отдают предпочтение экономичности, а не качеству.
На Демонстрация Microsoft на GitHubвы можете прослушать некоторые образцы.
Возможности Microsoft VALL-E
Хотя Microsoft VALL-E очень нов, он уже имеет много функций.
Синтез разнообразия: Поскольку Microsoft VALL-E создает дискретные токены с использованием метода выборки, его выходные данные различаются для одного и того же входного текста. Следовательно, он может синтезировать различные персонализированные образцы речи, используя множество случайных начальных значений.
Поддержание акустической среды: Microsoft VALL-E может воспроизводить настраиваемую речь, сохраняя при этом акустическую среду подсказки динамика. По сравнению с базовым уровнем VALL-E обучается на большом наборе данных с большим количеством акустических переменных. Аудио и транскрипция были созданы с использованием образцов из набора данных Fisher.
Поддержание эмоций говорящего: Используя базу данных эмоциональных голосов в качестве ресурса, например, звуковых подсказок, Microsoft VALL-E может создавать индивидуальную речь, сохраняя при этом эмоциональный тон подсказки говорящего. Традиционные подходы обучают модель, сопоставляя речь с транскрипцией и меткой эмоций в наборе контролируемых эмоциональных данных TTS. ВАЛЛ-И умеет сохранять эмоции даже в безвыходной ситуации.
Microsoft VALL-E по-прежнему имеет проблемы со структурой модели, охватом данных и надежностью синтеза.
Как работает Microsoft ВАЛЛ-И?
Microsoft использовала LibriLight, звуковую библиотеку, созданную Meta, для тренировки навыков синтеза VALL-voice E. Большинство из 60 000 часов англоязычной речи взяты из общедоступных аудиокниг LibriVox, и на них говорят более 7 000 разных людей. Голос в трехсекундном образце должен быть очень похож на голос в обучающих данных для VALL-E, чтобы получить удовлетворительный результат.
Microsoft предлагает десятки звуковых примеров модели ИИ в действии на странице примеров VALL-E. «Speaker Prompt», один из примеров, представляет собой трехсекундный звук, который ВАЛЛ-И приказано имитировать. «Основная правда» — это ранее записанный отрывок из выступления этого оратора, который используется в качестве эталона (что-то вроде «контроля» в эксперименте). Образец «VALL-E» является результатом модели VALL-E, а образец «Baseline» является примером синтеза, произведенного с помощью традиционного подхода синтеза речи.
В то время как Microsoft VALL-E вошла в историю как первый, но, конечно, не последний крупный проект ИИ 2023 года, технологический гигант оказал финансовую поддержку OpenAI Point-E, которая была опубликована в последние недели 2022 года.
Source: Объяснение Microsoft VALL-E: голос DALL-E