Apple совершила значительный прорыв в области искусственного интеллекта, представив Apple MGIE, революционную модель искусственного интеллекта с открытым исходным кодом, которая позволяет пользователям редактировать изображения с помощью инструкций на естественном языке. MGIE, сокращение от MLLM-Guided Image Editing, использует возможности мультимодальных моделей большого языка (MLLM) для интерпретации пользовательских команд и выполнения манипуляций на уровне пикселей с поразительной точностью.

Модель может похвастаться широким спектром возможностей редактирования, включая модификацию в стиле Photoshop, глобальную оптимизацию фотографий и локальное редактирование. Это означает, что пользователи могут легко улучшать свои изображения с помощью простой текстовой команды, что дает им возможность вносить изменения профессионального качества без необходимости обширных знаний в области редактирования фотографий.

Разработка MGIE является результатом новаторского сотрудничества Apple и группы исследователей из Калифорнийского университета в Санта-Барбаре. Модель была представлено в исследовательской работе принят на престижной Международной конференции по обучающим представлениям (ICLR) 2024, ведущей платформе для исследований ИИ. В документе демонстрируется впечатляющая эффективность MGIE в улучшении автоматических показателей и человеческой оценки при сохранении эффективности конкурентных выводов.

Яблоко МГИЭ
Apple MGIE — революционная система редактирования изображений, использующая машинное обучение, позволяющая пользователям редактировать изображения, используя инструкции на естественном языке. (Изображение предоставлено)

Что такое Apple MGIE?

Apple MGIE — это революционная система редактирования изображений, использующая машинное обучение, позволяющая пользователям редактировать изображения, используя инструкции на естественном языке. Эта инновационная технология позволяет пользователям просто описывать желаемые изменения изображения, а MGIE автоматически применяет изменения, устраняя необходимость в сложных инструментах редактирования или меню.

  Intel и AMD гонка, чтобы построить процессоры с AI с высоким кепом

Подобно другим передовым инструментам обработки изображений с использованием искусственного интеллекта, таким как Midjourney, StableDiffusion и DALL-E, Apple MGIE устраняет разрыв между человеческим намерением и манипулированием изображениями. Используя возможности мультимодального обучения, MGIE может понимать как визуальную информацию (само изображение), так и текстовую информацию (инструкции пользователя), что позволяет ему выполнять манипуляции на уровне пикселей с поразительной точностью.

Apple MGIE меняет правила игры в редактировании изображений, предоставляя удобный и эффективный способ улучшения изображений и управления ими. Независимо от того, являетесь ли вы профессиональным фотографом, графическим дизайнером или влиятельным лицом в социальных сетях, MGIE может помочь вам создать потрясающие изображения, которые произведут неизгладимое впечатление на вашу аудиторию.

Яблоко МГИЭ
Apple MGIE использует возможности мультимодальных моделей большого языка (MLLM) для интерпретации пользовательских команд и выполнения манипуляций на уровне пикселей с поразительной точностью. (Изображение предоставлено)

Как работает Apple MGIE?

Apple MGIE использует обработку естественного языка и машинное обучение, чтобы позволить пользователям редактировать изображения с помощью простых описательных команд. Система работает, понимая намерения пользователя, а затем манипулируя изображением, чтобы точно отразить желаемые изменения.

  Хогвартс Наследие призрак нашего любовного квеста объяснил

Вот разбивка рабочего процесса MGIE:

  • Ввод команд: пользователь описывает желаемые изменения на простом английском языке, например «Сделать небо на этом изображении голубее» или «Удалить красную машину с этой фотографии».
  • Понимание намерения: Усовершенствованная языковая модель MGIE расшифровывает инструкции пользователя, определяя конкретные объекты, атрибуты и желаемые модификации.
  • Визуальное понимание: Одновременно MGIE анализирует изображение, определяя ключевые элементы и их взаимосвязи.
  • Управляемое редактирование: сочетая лингвистическое и визуальное понимание, MGIE разумно манипулирует изображением, чтобы точно отражать команды пользователя. Он не следует слепо инструкциям, но может интерпретировать контекст и вносить разумные корректировки.

Основная концепция MGIE — преодолеть разрыв между человеческими намерениями и манипулированием изображениями, сделав редактирование изображений более доступным и эффективным для всех. С помощью MGIE пользователи могут легко улучшать изображения и манипулировать ими, используя простые команды на естественном языке, открывая новые возможности для творческого самовыражения и общения.

Как использовать Apple MGIE

Чтобы использовать MGIE, пользователи могут получить доступ к проекту с открытым исходным кодом на GitHub, который обеспечивает полный доступ к его исходному коду, данным обучения и предварительно обученным моделям. Это позволяет разработчикам и исследователям понять его внутреннюю работу и потенциально внести улучшения. Кроме того, демо-блокнот доступен на GitHub, помогая пользователям выполнять различные задачи редактирования, используя инструкции на естественном языке. Это служит практическим введением в возможности MGIE.

  Microsoft рассматривает возможность снижения требований к Windows 11 и поддержки процессоров Intel и AMD Zen 1 7-го поколения

Чтобы быстро и удобно опробовать MGIE, пользователи также могут поэкспериментировать с системой с помощью веб-демо, размещенное на Hugging Face Spaces. Эта онлайн-платформа позволяет пользователям работать с системой без необходимости локальной настройки.

Яблоко МГИЭ
MGIE приветствует обратную связь от пользователей и позволяет вносить изменения или запрашивать различные модификации. (Изображение предоставлено)

MGIE приветствует обратную связь от пользователей и позволяет вносить правки или запрашивать различные модификации. Этот итеративный подход гарантирует, что созданные изменения соответствуют художественному видению пользователя.

Хотя MGIE все еще находится в стадии разработки, открытый исходный код проекта делает его доступным для широкого круга пользователей и участников. Продолжающиеся исследования и вклад пользователей определят ее будущие возможности и потенциальные применения, что сделает ее захватывающей и быстро развивающейся технологией в области редактирования изображений.


Автор избранного изображения: pvproductions/Freepik.

Source: Apple MGIE знаменует собой тихий вход технологического гиганта в сектор искусственного интеллекта