Основываясь на текстовых подсказках, MusicGen от Meta может создавать короткие новые музыкальные композиции, которые при желании могут быть согласованы с существующей мелодией.
MusicGen построен на модели Transformer, как и большинство используемых сегодня языковых моделей. MusicGen предсказывает следующий сегмент музыкального произведения аналогично тому, как языковая модель предсказывает следующие буквы во фразе. Исследователи используют Кодек Меты звуковой токенизатор для разбиения аудиоданных на более мелкие части. MusicGen — это быстрый и эффективный одноэтапный подход, который выполняет параллельную обработку токенов.
Для тренировок экипаж использовал 20 000 часов авторизованной музыки. Они использовали 10 000 высококачественного аудио записи из внутреннего набора данных, а также, в частности, музыкальные данные Shutterstock и Pond5.

MusicGen: Что это?
Как и большинство используемых сегодня языковых моделей, MusicGen построен с использованием модели Transformer. Подобно тому, как языковая модель предсказывает последующие буквы в предложении, MusicGen предсказывает следующий раздел музыкального произведения.
Аудиоданные разделяются исследователями на более мелкие биты с помощью токенизатора звука EnCodec от Meta. MusicGen — это одноэтапный метод, который быстро и эффективно обрабатывает токены параллельно.
Наряду с эффективностью дизайна и скоростью производства, MusicGen отличается выдающейся способностью управлять как текстовыми, так и музыкальными репликами. Музыка в аудиофайле следует основному стилю, установленному в тексте.
Вы не можете точно изменить направление мелодии, чтобы услышать ее, скажем, в других музыкальных жанрах. Он служит только общим ориентиром для генерации и не воспроизводится точно в выходных данных.
Несмотря на то, что многие другие модели работают с генерацией текста, синтезом голоса, генерируемыми визуальными эффектами и даже небольшими фильмами, существует не так много высококачественных примеров создания музыки, которые стали доступны для публики.

MusicGen: Как им пользоваться?
Пользователи могут протестировать MusicGen с помощью API для объятий, но в зависимости от того, сколько пользователей используют его одновременно, создание любой музыки может занять некоторое время. Вы можете разместить свой собственный экземпляр модели, используя веб-сайт Hugging Face, чтобы получить гораздо более быстрые результаты. Вы можете загрузить код и запустить его самостоятельно, если у вас есть необходимые знания и инструменты.
Вот как попробовать онлайн-версию, если вы, как и большинство людей, хотите:
- Запуск веб-браузер.
- Посетите веб-страницу для обнимающее лицо.
- В правом верхнем углу выберите Пространства.
- Искать «Музыкальный ген» в коробке.
- Найдите тот, который Фейсбук опубликовано.
- В поле слева введите приглашение.
- Выбирать «Создать».
Это все, что вам нужно знать!
MusicGen опережает MusicLM на волосок
Три различных размера модель — 300 млн (300 млн), 1,5 млрд (1,5 млрд), и 3,3 миллиарда (3.3B) параметры — были протестированы авторами исследования. 1,5 миллиарда Модель параметров была оценена людьми как лучшая, но они обнаружили, что более крупные модели генерируют звуки более высокого качества. С другой стороны, 3,3 миллиарда Модель параметров работает более правильно при сопоставлении ввода текста с выводом звука.

MusicGen показывает лучшие результаты как по объективным, так и по субъективным показателям, которые определяют, насколько музыка соответствует словам и насколько правдоподобна композиция по сравнению с другими музыкальными моделями, такими как Riffusion, Mousai, MusicLM и Noise2Music. В целом модели немного лучше, чем у Google MusicLM.
Код и модели стали доступны по Meta как открытый исходный код на Github, коммерческое использование разрешено. есть демо на Huggingface.
Знаете ли вы, что такое общие ссылки ChatGPT?








