AMD открывает Instella: модели искусственного искусства с открытым исходным кодом, которые конкурируют с Meta и Google

AMD есть введено Instella, семейство языковых моделей с полностью открытым исходным кодом с 3 миллиардами параметров, обученных с нуля на графических процессорах AMD Instinct ™ MI300X. Модели демонстрируют значительные улучшения по сравнению с существующими полностью открытыми моделями и стремятся быть конкурентоспособными с современными моделями открытого веса.

AMD вводит модели с открытым исходным кодом с 3 миллиардами параметров

Instella построена на авторегрессивной модели трансформатора, состоящей из 36 слоев декодера и 32 голов внимания. Эта архитектура поддерживает длину последовательности до 4096 токенов, что позволяет модели обрабатывать обширный текстовый контекст. Размер словарного запаса составляет приблизительно 50 000 жетонов, управляемых токенизатором OLMO.

Обучение использовалась AMD Instinct MI300X графические процессоры, чтобы подчеркнуть аппаратную интеграцию AMD. Усилия в подразделениях увеличивают усилия предыдущих моделей AMD OLMO на 1 миллиард параметра, переходя из 64 графических процессоров MI250 с использованием 1,3 триллиона токенов на 128 MI300X графических процессоров и 4,15 триллиона токенов для Instella.

Премиум-план Google One AI – это способ оставаться на связи

Тренировочный трубопровод AMD в оттенке состоял из четырех этапов, которые постепенно расширяли возможности модели от общего понимания естественного языка до обучения и выравнивания в отношении человеческих предпочтений. Первый этап включал обучение на 4,065 трлн токенах из различных наборов данных, включая DCLM-Baseline и Dolma 1.7, в то время как второй этап включал дополнительные 57,575 миллиардов токенов из высококачественных наборов данных, таких как Dolmino-Mix-1124 и Smollm-Corpus.

Модели версии и детали обучения

Выпущенные модели Instella включают:

Instella-3b-stage1: Предварительная стадия 1 с токенами 4,065 трлн.
Instella-3b: Предварительная стадия 2 с дополнительными 57,575 миллиардами токенами для расширения возможностей решения проблем.
Instella-3b-Sft: Под наблюдением тонкой настройки (SFT) с использованием токенов 8,902 миллиарда в трех эпохах для улучшения способностей к обучению.
Instella-3b-instruct: Выравнивание для предпочтений человека с использованием 760 миллионов токенов с прямой оптимизацией предпочтений (DPO).

Методология обучения использовала Flashattention-2, Torck Compil и Bfloat16 по смешанному назначению для эффективности, наряду с полным параллелизмом данных с гибридным шардом для оптимизации использования ресурсов в большом кластере.

Простое руководство по отключению квитанций о чтении на Android

Производительность

Модели Instella превосходят существующие полностью открытые модели аналогичного размера. Окончательная предварительно обученная модель, Instella-3B, приводит к существующим высокопроизводительным полностью открытым моделям в среднем на 8,08%, с заметными улучшениями в критериях, таких как ARC Challenge (+8,02%), ARC Easy (+3,51%) и GSM8K (+48,98%).

Модели Instella-3B превосходят по различным стандартным критериям, включая MMLU и BBH, демонстрируя значительную конкурентную эффективность против таких моделей, как Llama-3.2-3B и Gemma-2-2B. С точки зрения настройки инструкций, Instella-3B-синструкция показывает последовательный балл-лидер в 14,37% по сравнению со следующими лучшими полностью открытыми моделями, настроенными на инструкции.

Модели были оценены с использованием стандартных задач от OLMES, Fastchat MT-Bench и Alpaca, с результатами указываются на высокую производительность по сравнению с существующими современными моделями открытого веса. Модели, настроенные на инструкции, достигли замечательных результатов, сузив пробелы и демонстрируя конкурентоспособность в ландшафте языковых моделей.

Доступность открытого исходного кода

AMD полностью открыл все артефакты, связанные с моделями Instella, включая веса модели, обучающие конфигурации, наборы данных и код, содействие сотрудничеству и инновациям в сообществе ИИ. Ресурсы доступны через Обнимающееся лицо модельные карты и GitHub Репозитории.

Сравнение: iPhone SE 2022 против iPhone 13 mini

Избранное изображение Кредит: Тимоти Дайкс/Unsplash

Пост AMD открывает Instella: модели искусственного интеллекта с открытым исходным кодом, которые конкурируют с Meta и Google, впервые появились на Techbriefly.

Source: AMD открывает Instella: модели искусственного искусства с открытым исходным кодом, которые конкурируют с Meta и Google

AMD открывает Instella: модели искусственного искусства с открытым исходным кодом, которые конкурируют с Meta и Google

Related Posts

Amazon собирается запустить вторую волну корпоративных увольнений на следующей неделе

Поиск Google добавляет "Личный интеллект" в режим AI

JBL выходит на рынок практических усилителей с технологией разделения стволов на основе искусственного интеллекта

Oracle и Silver Lake возглавили консорциум в знаковой сделке TikTok в США

Amazon собирается запустить вторую волну корпоративных увольнений на следующей неделе

Поиск Google добавляет "Личный интеллект" в режим AI

JBL выходит на рынок практических усилителей с технологией разделения стволов на основе искусственного интеллекта

Oracle и Silver Lake возглавили консорциум в знаковой сделке TikTok в США

Substack запускает телевизионное приложение для платформ Apple и Google

© 2021 TechBriefly is a Linkmedya brand.

AMD открывает Instella: модели искусственного искусства с открытым исходным кодом, которые конкурируют с Meta и Google

AMD вводит модели с открытым исходным кодом с 3 миллиардами параметров

Модели версии и детали обучения

Производительность

Доступность открытого исходного кода

Related Posts

© 2021 TechBriefly is a Linkmedya brand.

Follow Us