Microsoft анонсировала MAI-Image-1, свою первую модель генерации изображений, полностью разработанную собственными силами. Компания заявила, что модель будет доступна на Copilot и Bing Image Creator «очень скоро» и в настоящее время доступна для тестирования на LMArena, платформе, где пользователи оценивают двух анонимных чат-ботов и голосуют за лучший ответ. В таблице лидеров преобразования текста в изображение LMArena MAI-Image-1 занял девятое место, набрав 1096 баллов. Для сравнения, Gemini-2.5-Flash от Google, также известный как Nano-Banana, набрал 1154 балла и занимает второе место, а модель OpenAI набрала 1123 балла и заняла седьмое место. Таблицу лидеров возглавляет Hunyuan-image-3.0, модель, разработанная китайской технологической компанией Hunyuan. Microsoft заявила, что ее команда разработчиков сосредоточилась на том, чтобы избежать повторяющихся или общих стилизованных результатов с помощью MAI-Image-1. «Например, мы уделяем приоритетное внимание тщательному отбору данных и детальной оценке, ориентированной на задачи, которые точно отражают реальные варианты творческого использования», — пояснили в компании, добавив, что учитывают отзывы профессионалов творческих индустрий. Сообщается, что модель преуспевает в создании пейзажей и фотореалистичных изображений. Его производительность отличается точной передачей таких деталей, как освещение, тени и отражения, особенно по сравнению со «многими более крупными и медленными моделями». Помимо MAI-Image-1, Microsoft разработала другие внутренние модели, в том числе MAI-Voice-1 для генерации естественной речи и серию небольших языковых моделей Phi, предназначенных для эффективных задач рассуждения. Это внутреннее развитие происходит параллельно с продолжающейся финансовой и инфраструктурной поддержкой OpenAI со стороны компании. Область создания изображений с помощью ИИ в настоящее время переживает период высокой активности. Модель OpenAI недавно привлекла внимание общественности благодаря своей способности имитировать художественный стиль Studio Ghibli, а модель Nano-Banana от Google получила признание за свои расширенные возможности редактирования. Используя LMArena, AIM провела сравнение MAI-Image-1 от Microsoft, Gemini-2.5-Flash от Google и GPT-image-1 от OpenAI. Модели были протестированы с использованием подсказки, изображающей двух человек в кафе у окна ближе к вечеру. Оценка была сосредоточена на том, как каждая модель справляется со смешанным освещением, отражениями и реалистичностью теней. Пользователи могут посетить LMArena, чтобы протестировать эти модели, используя аналогичные подсказки.





