Новая модель искусственного интеллекта Meta ImageBind с открытым исходным кодом, которая связывает воедино множество потоков данных, таких как текст, аудио, визуальные данные, показания температуры и показания движения. была обнародована Meta.
В настоящее время эта модель представляет собой только исследовательскую работу без непосредственного потребительского или практического применения, но она предполагает будущее генеративных технологий. Системы искусственного интеллекта которые могут производить захватывающий, мультисенсорный опыт. Это также свидетельствует о том, насколько открыто Мета по-прежнему делится своими исследованиями в области ИИ, в отличие от таких конкурентов, как OpenAI и Googleоба из которых стали более затворническими.
Основная идея исследования заключается в интеграции нескольких видов данных в единый многомерный индекс (или «встраивание космос,” использовать жаргон ИИ). Хотя сейчас это может показаться немного абстрактным, фундаментальная идея, стоящая за недавним ростом генеративного ИИ, остается той же.
Что такое мета-ImageBind AI?
Например, на этапе обучения ряд генераторов изображений ИИ, в том числе ДАЛЛ–Е, Стабильный Распространениеи Середина пути, полагаться на эти системы. Сопоставляя эти данные с описаниями фотографий, они ищут закономерности в визуальных данных. Таким образом, это позволяет этим системам создавать изображения, соответствующие тексту, введенному пользователями. Многочисленные технологии искусственного интеллекта также производят видео или аудио аналогичным образом.
Согласно Meta ImageBind AI — это первая модель, которая интегрирует шесть разных формы данных в единое пространство встраивания. Визуальные (в форме изображения и видео), тепловые (инфракрасные изображения), текст, звук, информация о глубине и, что наиболее интригующе, измерения движения, производимые инерциальным измерительным блоком, или IMU, являются шестью категориями данных, которые включены в модели.
IMU используются в телефонах и умных часах для различных функций, в том числе для переключения телефона из альбомного режима в портретный и определения различных форм физический активность.
Идея состоит в том, что, как современные системы ИИ делают это с текстовым вводом, будущие системы ИИ смогут ссылаться на эти данные. Рассмотрим, например, футуристическую систему виртуальной реальности, которая создает не только звуковой и визуальный ввод, но и ваши среда и движение на настоящей сцене.
Если вы попросите его имитировать затяжной морской круиз, он поместит вас на корабль с тряской палубы под ногами и холодным ветром океанского воздуха в дополнение к шуму волн вдалеке.
Как работает ИИ Meta ImageBind?
В сообщении в блоге Meta ImageBind AI упоминает которые будущие модели могут включать в себя «сенсорные, речевые, обонятельные и фМРТ-сигналы мозга». Открытие, согласно заявлению, «приближает машины на один шаг к способности людей учиться одновременно, целостно и напрямую из множества различных форм информации». Что нормально; что бы ни. насколько малы эти этапы, будет определять.)
Естественно, все это весьма гипотетично, и вполне вероятно, что непосредственные применения такого рода исследований будут значительно более ограниченными. Например, Мета показал в прошлом году выпустили модель ИИ, которая создает короткие размытые фильмы из текстовых описаний. Будущие итерации системы могут объединять дополнительные потоки данных, производя звук в дополнение к видеовыходу, например, как показано в такой работе, как ImageBind.
Тем не менее, для тех, кто следит за отраслью, исследование особенно интригует, поскольку Meta ImageBind AI открывает исходный код базовой модели — тенденция, за которой внимательно следят в области ИИ.
Подход Meta ImageBind AI с открытым исходным кодом: почему это работает?
Те, кто против открытого исходного кода, такие как OpenAIутверждают, что такой подход вреден для создателей, потому что конкуренты могут дублировать их работу, и что он может быть даже опасным, поскольку может позволить мошенникам использовать передовые модели искусственного интеллекта.
В ответ сторонники утверждают, что открытый исходный код позволяет третьим сторонам исследовать системы на наличие недостатков и исправлять некоторые из их недостатков. Они отмечают, что это может даже иметь финансовое преимущество, поскольку позволяет предприятиям нанимать внешних программистов в качестве неоплачиваемых сотрудников для улучшения своей работы.
Несмотря на то, что были проблемы, Meta ImageBind AI до сих пор твердо оставался в лагере с открытым исходным кодом. (Например, его самая последняя языковая модель, ЛАМАбыл выпущен онлайн в начале этого года.) Во многих отношениях отсутствие у компании коммерческого успеха в области искусственного интеллекта (у нее нет чат-бота, с которым можно было бы конкурировать Бинг, Бардили ЧатGPT) сделала эту стратегию возможной. Тем временем эта тактика все еще используется с ImageBind.
Ознакомьтесь со статьями ниже, чтобы быть в курсе последних достижений в области технологий, особенно тех, которые касаются искусственного интеллекта.
- Является ли знание ChatGPT ключом к получению работы: да, говорит японский стартап
- Visual ChatGPT создан для развития генераторов преобразования текста в изображения.
- Midjourney V5 здесь, чтобы порадовать вас!
Source: Модель ИИ Meta ImageBind открывает новые горизонты в области генеративного ИИ