Microsoft имеет выкатил новая захватывающая разработка в области языковых моделей: 1-битный LLM. Это продвижение, вдохновленный исследовательскими проектами, такими как BitNet, знаменует собой заметный сдвиг в способах построения и оптимизации языковых моделей. В основе этого нововведения лежит поразительно эффективный метод представления параметров модели (или весов).используя всего 1,58 бита, в отличие от традиционных 16-битных чисел с плавающей запятой (FP16). подход, распространенный в более ранних моделях.

Первый в своем роде 1-битный LLM

Дублированный БитНет LLM b1.58этот новаторский подход ограничивает потенциальные значения каждого веса всего тремя вариантами: -1, 0 или +1. Такое резкое сокращение количества битов, необходимых для каждого параметра, является основой этой революционной технологии. Удивительно, но, несмотря на небольшое потребление битов, BitNet b1.58 умудряется обеспечивают показатели производительности, сопоставимые с показателями традиционных моделей. Сюда входят такие области, как недоумение и производительность конечной задачи, при этом используются одинаковые наборы обучающих данных того же размера.

  Раскрыт дизайн PlayStation VR2: первый взгляд, характеристики и многое другое

Что такое 1-битные LLM?

Сфера генеративного искусственного интеллекта развивается день ото дня., и последним прорывом в этой динамичной области стало появление 1-битных моделей изучения языка. Это может показаться удивительным, но эта разработка может изменить сферу искусственного интеллекта, устранив некоторые из наиболее серьезных препятствий, с которыми сегодня сталкиваются LLM:а именно, их гигантские размеры.

Обычно веса модели машинного обучения, будь то LLM или что-то столь же простое, как логистическая регрессия, хранятся с использованием либо 32-битные или 16-битные числа с плавающей запятой. Этот стандартный подход – палка о двух концах; хотя это обеспечивает высокую точность расчетов модели, это также приводит к огромному размеру этих моделей.

1-битный лм
Microsoft представила новую интересную разработку в области языковых моделей: 1-битный LLM (Изображение предоставлено)

Именно из-за этого раздувания развертывание таких чемпионов-тяжеловесов, как GPT, в локальных системах или в производственных средах становится логистическим кошмаром. Астрономическое количество весов, обусловленное точностью этих плавающих точек, увеличивает их размер до неуправляемых размеров.

  FIFA 22 не будет следующего поколения на ПК, EA ограничивает «хорошую» версию PS5, Xbox Series XS и Stadia.

В отличие от традиционных моделей, 1-битные LLM используют только один бит — 0 или 1 — для представления весовых параметров. Эта, казалось бы, незначительная настройка имеет серьезные последствия: она резко сокращает общий размер моделей, возможно, с огромным отрывом.

Такое сокращение размеров открывает путь к развертыванию LLM на гораздо меньших устройствахделая передовые приложения искусственного интеллекта более доступны и осуществимы на более широком спектре платформ.

Вернуться к BitNet LLM b1.58

Что действительно примечательно в 1,58-битном LLM, так это его экономическая эффективность. Модель отличается уменьшенной задержкой, меньшим использованием памяти, повышенной пропускной способностью и снижением энергопотребления, представляя собой устойчивый вариант в вычислительно интенсивном мире искусственного интеллекта.

1-битный LLM от Microsoft отличается не только своей эффективностью. Он представляет собой свежий взгляд на масштабирование и обучение языковых моделей, сочетая первоклассную производительность с экономической целесообразностью. Это намекает на зарождение новых вычислительных парадигм и возможность создания специализированного оборудования, предназначенного для запуска этих более простых и эффективных моделей.

  Произведен отзыв 3D-версии Bambu Lab A1
1-битный лм
Сравнение BitNet LLM b1.58 и LLaMA LLM 70B (Изображение предоставлено)

Также открывается дискуссия вокруг BitNet LLM b1.58. интригующие возможности более эффективного управления длинными последовательностями в LLMпредлагая потенциальные области для дальнейших исследований в методах сжатия без потерь, чтобы еще больше повысить эффективность.

В тени этого примечательного нововведения Microsoft также произвела фурор своей последней моделью небольшого языка Phi-2. Этот мощный центр с 2,7 миллиардами параметров продемонстрировал исключительные способности к пониманию и рассуждению, что является еще одним свидетельством постоянного стремления Microsoft расширять границы технологий искусственного интеллекта. Внедрение 1-битного LLM, наряду с успехом Phi-2, ознаменует захватывающую эпоху инноваций и эффективности в разработке языковых моделей.


Предоставленное изображение предоставлено: Дрю Бимер/Unsplash

Source: Microsoft представляет свой 1-битный LLM