Основываясь на текстовых подсказках, MusicGen от Meta может создавать короткие новые музыкальные композиции, которые при желании могут быть согласованы с существующей мелодией.

MusicGen построен на модели Transformer, как и большинство используемых сегодня языковых моделей. MusicGen предсказывает следующий сегмент музыкального произведения аналогично тому, как языковая модель предсказывает следующие буквы во фразе. Исследователи используют Кодек Меты звуковой токенизатор для разбиения аудиоданных на более мелкие части. MusicGen — это быстрый и эффективный одноэтапный подход, который выполняет параллельную обработку токенов.

Для тренировок экипаж использовал 20 000 часов авторизованной музыки. Они использовали 10 000 высококачественного аудио записи из внутреннего набора данных, а также, в частности, музыкальные данные Shutterstock и Pond5.

MusicGen
MusicGen — это одноэтапный метод, который быстро и эффективно обрабатывает токены параллельно.

MusicGen: Что это?

Как и большинство используемых сегодня языковых моделей, MusicGen построен с использованием модели Transformer. Подобно тому, как языковая модель предсказывает последующие буквы в предложении, MusicGen предсказывает следующий раздел музыкального произведения.

  H&M создает остров в Animal Crossing для переработки одежды

Аудиоданные разделяются исследователями на более мелкие биты с помощью токенизатора звука EnCodec от Meta. MusicGen — это одноэтапный метод, который быстро и эффективно обрабатывает токены параллельно.

Наряду с эффективностью дизайна и скоростью производства, MusicGen отличается выдающейся способностью управлять как текстовыми, так и музыкальными репликами. Музыка в аудиофайле следует основному стилю, установленному в тексте.

Вы не можете точно изменить направление мелодии, чтобы услышать ее, скажем, в других музыкальных жанрах. Он служит только общим ориентиром для генерации и не воспроизводится точно в выходных данных.

Несмотря на то, что многие другие модели работают с генерацией текста, синтезом голоса, генерируемыми визуальными эффектами и даже небольшими фильмами, существует не так много высококачественных примеров создания музыки, которые стали доступны для публики.

MusicGen
MusicGen построен с использованием модели Transformer, как и большинство используемых сейчас языковых моделей.

MusicGen: Как им пользоваться?

Пользователи могут протестировать MusicGen с помощью API для объятий, но в зависимости от того, сколько пользователей используют его одновременно, создание любой музыки может занять некоторое время. Вы можете разместить свой собственный экземпляр модели, используя веб-сайт Hugging Face, чтобы получить гораздо более быстрые результаты. Вы можете загрузить код и запустить его самостоятельно, если у вас есть необходимые знания и инструменты.

  Radeon RX 6600 XT будет иметь две версии с 6 ГБ или 12 ГБ

Вот как попробовать онлайн-версию, если вы, как и большинство людей, хотите:

  • Запуск веб-браузер.
  • Посетите веб-страницу для обнимающее лицо.
  • В правом верхнем углу выберите Пространства.
  • Искать «Музыкальный ген» в коробке.
  • Найдите тот, который Фейсбук опубликовано.
  • В поле слева введите приглашение.
  • Выбирать «Создать».

Это все, что вам нужно знать!

MusicGen опережает MusicLM на волосок

Три различных размера модель — 300 млн (300 млн), 1,5 млрд (1,5 млрд), и 3,3 миллиарда (3.3B) параметры — были протестированы авторами исследования. 1,5 миллиарда Модель параметров была оценена людьми как лучшая, но они обнаружили, что более крупные модели генерируют звуки более высокого качества. С другой стороны, 3,3 миллиарда Модель параметров работает более правильно при сопоставлении ввода текста с выводом звука.

MusicGen
MusicGen превосходит Riffusion, Mousai, MusicLM и Noise2Music по объективным и субъективным оценкам того, насколько музыка соответствует тексту и реалистична.

MusicGen показывает лучшие результаты как по объективным, так и по субъективным показателям, которые определяют, насколько музыка соответствует словам и насколько правдоподобна композиция по сравнению с другими музыкальными моделями, такими как Riffusion, Mousai, MusicLM и Noise2Music. В целом модели немного лучше, чем у Google MusicLM.

  Как сделать снимок экрана в Windows 10?

Код и модели стали доступны по Meta как открытый исходный код на Github, коммерческое использование разрешено. есть демо на Huggingface.

Знаете ли вы, что такое общие ссылки ChatGPT?

Source: Что такое MusicGen от Meta и как его использовать?