Stable Audio Open делает шаг вперед в области генерации звука с помощью искусственного интеллекта.
Его путь начинается с Stability AI, компании, наиболее известной благодаря созданию Stable Diffusion, инновационного генератора искусств на базе искусственного интеллекта. Используя свой опыт в области искусственного интеллекта и машинного обучения, компания Stability AI теперь решила заняться аудиальной сферой с помощью Stable Audio Open. Эта генеративная модель предназначена для создания звуков и коротких музыкальных произведений на основе текстовых описаний — концепция, которая давно интриговала как технологов, так и музыкантов.
Идея о машинах, создающих искусство, не нова. Исторически предпринимались различные попытки научить компьютеры сочинять музыку или создавать изобразительное искусство. Ранние усилия по созданию музыки с помощью ИИ часто были ограничены технологиями того времени, что приводило к элементарным результатам, которые были скорее новыми, чем практичными. Однако с развитием искусственного интеллекта и машинного обучения возможности создания сложной и эстетичной музыки с помощью искусственного интеллекта резко возросли. Переход Stability AI от визуальных к аудиогенеративным моделям знаменует собой интересную эволюцию, отражающую более широкие тенденции в развитии ИИ.
Stable Audio Open основывается на принципах, заложенных в более ранних проектах искусственного интеллекта, но идет еще дальше, уделяя особое внимание записям, не требующим лицензионных отчислений. Такой акцент гарантирует, что создаваемый контент является юридически обоснованным и доступен для широкого круга пользователей.
Способность модели преобразовывать текстовые описания в аудиоклипы длиной до 47 секунд является свидетельством сложной подготовки, которую он прошел. Использование примерно 486 000 образцов. Модель, полученная из таких источников, как Freesound и Free Music Archive, представляет собой новый рубеж творческого использования ИИ.
Что такое Stable Audio Open?
По своей сути Stable Audio Open функционирует благодаря интерпретация текстовых описаний для создания соответствующих аудиофрагментов. Эти фрагменты могут варьироваться от барабанных битов до инструментальных риффов, окружающих звуков и различных элементов производства, подходящих для мультимедийных приложений, таких как Suno AI.
В описании может быть указан конкретный стиль, например «Рок-бит, играемый в подготовленной студии, сессионная игра на барабанах на акустической установке», и тогда модель будет создать аудиоклип, соответствующий этому описанию. Этот процесс интуитивно понятен и универсален, что делает его ценным инструментом для создателей, которым нужны быстрые и конкретные звуковые элементы.
Обучение модели включало в себя обширную набор данных, содержащий 486 000 сэмплов из известных бесплатных музыкальных библиотек. Этот надежный набор данных обеспечивает основу для разнообразных выходных возможностей модели, позволяя ей охватывать широкий спектр звуков и музыкальных стилей. Однако ограничения набора данных также влияют на производительность модели. Например, Stability AI признает, что модель может не работать одинаково хорошо во всех музыкальных стилях и культурных проявлениях. Это связано с присущей им предвзятостью в данных обучения, которые преимущественно характеризуют одни стили и культуры по сравнению с другими.
Еще одной примечательной особенностью Stable Audio Open является его Открытый исходный код природа. Это позволяет пользователям точно настраивать модель с использованием собственных аудиоданных, адаптируя ее к конкретным потребностям. Например, барабанщик может ввести свои собственные записи ударных, чтобы улучшить способность модели генерировать новые биты, которые точно соответствуют его уникальному стилю. Этот потенциал настройки делает Stable Audio Open не только инструментом для общей генерации звука, но и легко адаптируемым активом для профессионалов со специальными требованиями.
Ограничения и противоречия
Несмотря на свои инновационные возможности, Stable Audio Open имеет свои ограничения.
Одним из существенных ограничений является его неспособность создавать полноценные песни, мелодии или вокал в высоком качестве. Модель оптимизирована для коротких аудиоклипов и отдельных звуковых элементов, а не для полноценных музыкальных композиций. Для пользователей, желающих создавать полноценные песни, Стабильность ИИ рекомендует свой премиальный сервис Stable Audio, который, предположительно, предлагает более продвинутые функции и возможности.
Более того, Stable Audio Open недоступен для коммерческого использования. Условия обслуживания прямо запрещают использование созданного контента в коммерческих целях, что может ограничить его привлекательность для некоторых потенциальных пользователей. Это ограничение гарантирует, что модель останется инструментом для личных и некоммерческих творческих проектов, что соответствует духу открытого исходного кода, но также отражает сложности управления авторским правом и коммерческого использования в эпоху цифровых технологий.
Сосредоточение внимания Stability AI на записях, не требующих лицензионных отчислений, направлено на то, чтобы обойти некоторые спорные вопросы, связанные с контентом, созданным ИИ, и авторскими правами. Однако более широкая дискуссия об использовании произведений, защищенных авторским правом, для обучения моделей ИИ остается нерешенной. Отставка вице-президента Stability AI по генеративному аудио Эда Ньютона-Рекса из-за разногласий по этому вопросу подчеркивает продолжающуюся напряженность в отрасли. Уход Newton-Rex подчеркивает проблемы, с которыми сталкиваются такие компании, как Stability AI, поскольку они расширяют границы того, что может делать ИИ, одновременно преодолевая юридические и этические последствия своих инноваций.
Будущее звучание творчества уже здесь
Stable Audio Open представляет собой увлекательные разработки в области использования ИИ в творческих целях. Позволяя создавать короткие высококачественные аудиоклипы из текстовых описаний, он открывает новые возможности для музыкантов, режиссеров и создателей контента. Возможность точной настройки модели с использованием пользовательских данных еще больше повышает ее полезность, делая ее гибким инструментом для широкого спектра творческих приложений.
Зависимость модели от rзаписи без лицензионных отчислений гарантирует, что созданный контент не будет подвержен нарушениям авторских прав, что является важным фактором в эпоху цифровых технологий. Однако ограничения модели, такие как ее неспособность создавать полноформатные песни и ограничения на коммерческое использование, подчеркивают текущие проблемы и области для улучшения генерации звука с помощью ИИ.
Стабильность разработка с открытым исходным кодом заслуживает похвалы, поскольку позволяет пользователям исследовать и расширять возможности Stable Audio Open. Такой подход способствует созданию среды сотрудничества, в которой пользователи могут внести свой вклад в развитие модели и адаптировать ее к своим конкретным потребностям. По мере того, как все больше пользователей экспериментируют и совершенствуют модель, ее потенциальные возможности применения, вероятно, будут расширяться, что будет способствовать дальнейшим инновациям в области звука, генерируемого искусственным интеллектом.
Посмотрите примеры по ссылке здесь.
Автор избранного изображения: Стокгиу/Freepik
Source: Stable Audio Open упрощает создание музыкального шедевра