Ученые создали новую нейронную сеть, которая может использовать ИИ для пения по образцам речи. Алгоритм китайских разработчиков может синтезировать запись пения человека на основе записи обычной речи человека или выполнить это наоборот и синтезировать речь на основе пения. Была опубликована статья с описанием разработки, обучения и тестирования алгоритма. опубликовано на arXiv.org.
В последние годы развитие нейросетевых алгоритмов синтеза речи, таких как WaveNet, позволило создать системы, которые трудно отличить от реальных людей. Например, в 2018 году Google показал голосового помощника для бронирования мест, который может не только говорить реалистично, но и вставлять человеческие звуки, которые делают речь доступной для проверки, например «гм». В результате компании также пришлось научить алгоритм предупреждать в начале разговора, что это не человек.
Как и в случае с другими алгоритмами нейронных сетей, успех систем синтеза речи во многом связан не с их архитектурой, а в основном с большим объемом доступных данных для обучения. Создание системы синтезирования пения – задача, на первый взгляд похожая, но на самом деле она намного сложнее из-за значительно меньшего количества доступных данных.
Многие разработчики, работающие над системами генерации пения, недавно пошли по пути уменьшения громкости сэмплов пения для обучения алгоритму, и теперь группа китайских исследователей во главе с Донг Ю из Tencent создала систему, которая может создавать реалистичные аудиозаписи пения из речи. образцы.
Алгоритм основан на предыдущей разработке Tencent, нейронной сети DurIAN, предназначенной для синтеза реалистичных ролики с говорящим ведущим на основе текста. Теперь они ставят перед DuarIAN новый блок распознавания речи, который создает фонемы на основе аудиосэмпла.
Авторы обучили алгоритм на двух закрытых наборах данных, состоящих из полутора часов пения и 28 часов речи. После обучения они протестировали алгоритм на 14 добровольцах, которые оценили реалистичность синтезированного пения и сходство. В итоге один из тестов получил 3,8 балла по реалистичности и 3,65 балла по подобию. Авторы опубликовано образцы работы нейронной сети.