AMD есть введено Instella, семейство языковых моделей с полностью открытым исходным кодом с 3 миллиардами параметров, обученных с нуля на графических процессорах AMD Instinct ™ MI300X. Модели демонстрируют значительные улучшения по сравнению с существующими полностью открытыми моделями и стремятся быть конкурентоспособными с современными моделями открытого веса.
AMD вводит модели с открытым исходным кодом с 3 миллиардами параметров
Instella построена на авторегрессивной модели трансформатора, состоящей из 36 слоев декодера и 32 голов внимания. Эта архитектура поддерживает длину последовательности до 4096 токенов, что позволяет модели обрабатывать обширный текстовый контекст. Размер словарного запаса составляет приблизительно 50 000 жетонов, управляемых токенизатором OLMO.
Обучение использовалась AMD Instinct MI300X графические процессоры, чтобы подчеркнуть аппаратную интеграцию AMD. Усилия в подразделениях увеличивают усилия предыдущих моделей AMD OLMO на 1 миллиард параметра, переходя из 64 графических процессоров MI250 с использованием 1,3 триллиона токенов на 128 MI300X графических процессоров и 4,15 триллиона токенов для Instella.
Тренировочный трубопровод AMD в оттенке состоял из четырех этапов, которые постепенно расширяли возможности модели от общего понимания естественного языка до обучения и выравнивания в отношении человеческих предпочтений. Первый этап включал обучение на 4,065 трлн токенах из различных наборов данных, включая DCLM-Baseline и Dolma 1.7, в то время как второй этап включал дополнительные 57,575 миллиардов токенов из высококачественных наборов данных, таких как Dolmino-Mix-1124 и Smollm-Corpus.
Модели версии и детали обучения
Выпущенные модели Instella включают:
- Instella-3b-stage1: Предварительная стадия 1 с токенами 4,065 трлн.
- Instella-3b: Предварительная стадия 2 с дополнительными 57,575 миллиардами токенами для расширения возможностей решения проблем.
- Instella-3b-Sft: Под наблюдением тонкой настройки (SFT) с использованием токенов 8,902 миллиарда в трех эпохах для улучшения способностей к обучению.
- Instella-3b-instruct: Выравнивание для предпочтений человека с использованием 760 миллионов токенов с прямой оптимизацией предпочтений (DPO).
Методология обучения использовала Flashattention-2, Torck Compil и Bfloat16 по смешанному назначению для эффективности, наряду с полным параллелизмом данных с гибридным шардом для оптимизации использования ресурсов в большом кластере.
Производительность
Модели Instella превосходят существующие полностью открытые модели аналогичного размера. Окончательная предварительно обученная модель, Instella-3B, приводит к существующим высокопроизводительным полностью открытым моделям в среднем на 8,08%, с заметными улучшениями в критериях, таких как ARC Challenge (+8,02%), ARC Easy (+3,51%) и GSM8K (+48,98%).
Модели Instella-3B превосходят по различным стандартным критериям, включая MMLU и BBH, демонстрируя значительную конкурентную эффективность против таких моделей, как Llama-3.2-3B и Gemma-2-2B. С точки зрения настройки инструкций, Instella-3B-синструкция показывает последовательный балл-лидер в 14,37% по сравнению со следующими лучшими полностью открытыми моделями, настроенными на инструкции.
Модели были оценены с использованием стандартных задач от OLMES, Fastchat MT-Bench и Alpaca, с результатами указываются на высокую производительность по сравнению с существующими современными моделями открытого веса. Модели, настроенные на инструкции, достигли замечательных результатов, сузив пробелы и демонстрируя конкурентоспособность в ландшафте языковых моделей.
Доступность открытого исходного кода
AMD полностью открыл все артефакты, связанные с моделями Instella, включая веса модели, обучающие конфигурации, наборы данных и код, содействие сотрудничеству и инновациям в сообществе ИИ. Ресурсы доступны через Обнимающееся лицо модельные карты и GitHub Репозитории.
Избранное изображение Кредит: Тимоти Дайкс/Unsplash
Пост AMD открывает Instella: модели искусственного интеллекта с открытым исходным кодом, которые конкурируют с Meta и Google, впервые появились на Techbriefly.
