Технологический гигант Apple нарушил молчание об искусственном интеллекте и представил мультимодальные модели большого языка (LLM) нового поколения под названием MM1.
MM1, который успешно выполняет сложные задачи, такие как субтитры к изображениям, ответы на визуальные вопросы и вывод на естественном языке, рассматривается как важное достижение в мире искусственного интеллекта.
Что такое ММ1?
Как я упоминал выше, MM1 — это мультимодальная модель большого языка, предназначенная для подписи изображений, ответов на визуальные вопросы и выполнения вывода на естественном языке. Он направлен на выполнение сложных задач путем объединения текстовых и визуальных данных. Исследователи Apple сообщают, что MM1 предлагает значительно улучшенные результаты по сравнению с другими результатами предварительного обучения.
Технические характеристики ММ1
Поддерживая до 30 миллиардов параметров, MM1 выделяется как семейство моделей, способных одновременно обрабатывать изображения и текстовые данные. Обученный различным типам данных, таким как подзаголовки изображений, вкрапленный текст изображения и только текст, MM1 обладает более широкими возможностями обработки информации.
С другой стороны, разработка MM1 также указывает на то, какое значение Apple придает искусственному интеллекту. Apple работает над программой LLM под кодовым названием «Аякси включая такие инициативы, как DarwinAI, рассматривает искусственный интеллект и машинное обучение в качестве основных технологий. Компания планирует поделиться подробностями своей работы в этой области в 2024 году и выступить с презентацией, посвященной искусственному интеллекту, на конференции разработчиков WWDC в июне.
MM1 от Apple считается важным шагом вперед в области многомодовых LLM. Это показывает, что Apple нарушает свое молчание в отношении искусственного интеллекта, который может сыграть важную роль в ближайшем будущем. Разработка MM1 будет способствовать дальнейшему развитию искусственного интеллекта в таких областях, как обработка визуальных данных и понимание естественного языка.
Предоставленное изображение предоставлено: Сумуду Мохоттиге / Unsplash
Source: Apple представляет свой мультимодальный LLM: MM1