Apple совершила значительный прорыв в области искусственного интеллекта, представив Apple MGIE, революционную модель искусственного интеллекта с открытым исходным кодом, которая позволяет пользователям редактировать изображения с помощью инструкций на естественном языке. MGIE, сокращение от MLLM-Guided Image Editing, использует возможности мультимодальных моделей большого языка (MLLM) для интерпретации пользовательских команд и выполнения манипуляций на уровне пикселей с поразительной точностью.
Модель может похвастаться широким спектром возможностей редактирования, включая модификацию в стиле Photoshop, глобальную оптимизацию фотографий и локальное редактирование. Это означает, что пользователи могут легко улучшать свои изображения с помощью простой текстовой команды, что дает им возможность вносить изменения профессионального качества без необходимости обширных знаний в области редактирования фотографий.
Разработка MGIE является результатом новаторского сотрудничества Apple и группы исследователей из Калифорнийского университета в Санта-Барбаре. Модель была представлено в исследовательской работе принят на престижной Международной конференции по обучающим представлениям (ICLR) 2024, ведущей платформе для исследований ИИ. В документе демонстрируется впечатляющая эффективность MGIE в улучшении автоматических показателей и человеческой оценки при сохранении эффективности конкурентных выводов.

Что такое Apple MGIE?
Apple MGIE — это революционная система редактирования изображений, использующая машинное обучение, позволяющая пользователям редактировать изображения, используя инструкции на естественном языке. Эта инновационная технология позволяет пользователям просто описывать желаемые изменения изображения, а MGIE автоматически применяет изменения, устраняя необходимость в сложных инструментах редактирования или меню.
Подобно другим передовым инструментам обработки изображений с использованием искусственного интеллекта, таким как Midjourney, StableDiffusion и DALL-E, Apple MGIE устраняет разрыв между человеческим намерением и манипулированием изображениями. Используя возможности мультимодального обучения, MGIE может понимать как визуальную информацию (само изображение), так и текстовую информацию (инструкции пользователя), что позволяет ему выполнять манипуляции на уровне пикселей с поразительной точностью.
Apple MGIE меняет правила игры в редактировании изображений, предоставляя удобный и эффективный способ улучшения изображений и управления ими. Независимо от того, являетесь ли вы профессиональным фотографом, графическим дизайнером или влиятельным лицом в социальных сетях, MGIE может помочь вам создать потрясающие изображения, которые произведут неизгладимое впечатление на вашу аудиторию.

Как работает Apple MGIE?
Apple MGIE использует обработку естественного языка и машинное обучение, чтобы позволить пользователям редактировать изображения с помощью простых описательных команд. Система работает, понимая намерения пользователя, а затем манипулируя изображением, чтобы точно отразить желаемые изменения.
Вот разбивка рабочего процесса MGIE:
- Ввод команд: пользователь описывает желаемые изменения на простом английском языке, например «Сделать небо на этом изображении голубее» или «Удалить красную машину с этой фотографии».
- Понимание намерения: Усовершенствованная языковая модель MGIE расшифровывает инструкции пользователя, определяя конкретные объекты, атрибуты и желаемые модификации.
- Визуальное понимание: Одновременно MGIE анализирует изображение, определяя ключевые элементы и их взаимосвязи.
- Управляемое редактирование: сочетая лингвистическое и визуальное понимание, MGIE разумно манипулирует изображением, чтобы точно отражать команды пользователя. Он не следует слепо инструкциям, но может интерпретировать контекст и вносить разумные корректировки.
Основная концепция MGIE — преодолеть разрыв между человеческими намерениями и манипулированием изображениями, сделав редактирование изображений более доступным и эффективным для всех. С помощью MGIE пользователи могут легко улучшать изображения и манипулировать ими, используя простые команды на естественном языке, открывая новые возможности для творческого самовыражения и общения.
Как использовать Apple MGIE
Чтобы использовать MGIE, пользователи могут получить доступ к проекту с открытым исходным кодом на GitHub, который обеспечивает полный доступ к его исходному коду, данным обучения и предварительно обученным моделям. Это позволяет разработчикам и исследователям понять его внутреннюю работу и потенциально внести улучшения. Кроме того, демо-блокнот доступен на GitHub, помогая пользователям выполнять различные задачи редактирования, используя инструкции на естественном языке. Это служит практическим введением в возможности MGIE.
Чтобы быстро и удобно опробовать MGIE, пользователи также могут поэкспериментировать с системой с помощью веб-демо, размещенное на Hugging Face Spaces. Эта онлайн-платформа позволяет пользователям работать с системой без необходимости локальной настройки.

MGIE приветствует обратную связь от пользователей и позволяет вносить правки или запрашивать различные модификации. Этот итеративный подход гарантирует, что созданные изменения соответствуют художественному видению пользователя.
Хотя MGIE все еще находится в стадии разработки, открытый исходный код проекта делает его доступным для широкого круга пользователей и участников. Продолжающиеся исследования и вклад пользователей определят ее будущие возможности и потенциальные применения, что сделает ее захватывающей и быстро развивающейся технологией в области редактирования изображений.
Автор избранного изображения: pvproductions/Freepik.
Source: Apple MGIE знаменует собой тихий вход технологического гиганта в сектор искусственного интеллекта







