Проект OpenMythos утверждает, что Claude Mythos — преобразователь рекуррентной глубины

Anthropic не опубликовала технический документ по Claude Mythos, что побудило Кая Гомеса запустить OpenMythos, проект с открытым исходным кодом на GitHub. OpenMythos предназначен для реконструкции архитектуры Claude Mythos с использованием основных принципов PyTorch.

В проекте предполагается, что Claude Mythos представляет собой тип архитектуры, известный как трансформаторы рекуррентной глубины (RDT), которые фундаментально отличаются от традиционных трансформаторов. Стандартные преобразователи обрабатывают входные данные через ряд уникальных слоев с независимыми весами, тогда как RDT итеративно применяет фиксированный набор весов в течение одного прямого прохода.

Эта методология позволяет глубине рассуждений зависеть от количества итераций, выполняемых во время вывода. OpenMythos имеет структуру, состоящую из трех частей: Prelude, Recurrent Block и Coda, где Prelude и Coda состоят из стандартных слоев преобразователей, которые работают один раз, а Recurrent Block может повторяться до 16 раз.

На каждом шаге цикла скрытое состояние обновляется по уравнению: ht+1 = A·ht + B·e + Transformer(ht, e). Здесь e представляет собой закодированные входные данные из Prelude, которые повторно вводятся на каждой итерации для обеспечения непрерывности. Матрицы A и B определяют, насколько предыдущее скрытое состояние и закодированные входные данные влияют на следующее состояние.

Capcom Spetlight, чтобы продемонстрировать Resident Evil, больше

Рекуррентный блок включает в себя уровень Mixture-of-Experts (MoE), который выборочно активирует подмножество экспертов для каждого токена, способствуя разнообразию вычислений. В каждой итерации используется другой набор экспертов, что позволяет выполнять различные вычисления при совместном использовании базовых весов.

OpenMythos также использует Multi-Latent Attention, что значительно снижает использование KV-памяти. Эта архитектура позволяет рассуждать без выброса промежуточных токенов, в отличие от стандартных подсказок цепочки мыслей, которые обрабатывают рассуждения с помощью промежуточных токенов.

OpenMythos решает общие проблемы обучения, связанные с циклическими моделями, такие как проблемы стабильности, такие как остаточный взрыв и чрезмерное мышление. Стабильность поддерживается за счет того, что спектральный радиус матрицы A остается меньше 1, как указано в архитектуре Parcae.

Остановка динамического адаптивного времени вычислений (ACT) реализована для определения критериев остановки цикла на основе сложности токена. Адаптеры LoRA с учетом глубины также используются для создания уникального поведения на каждой итерации, сводя к минимуму увеличение параметров.

Шутер от первого лица Halo Infinite - толчок к успеху в киберспорте

Исследования показывают, что RDT с 770 миллионами параметров может обеспечить производительность, эквивалентную стандартному трансформатору с 1,3 миллиарда параметров. Это указывает на то, что глубина рассуждений масштабируется по мере вычислений вывода, бросая вызов существующим парадигмам о взаимосвязи между количеством параметров и возможностями модели.

OpenMythos предоставляет практическую реализацию для изучения динамики циклического преобразователя и глубины рассуждений, что потенциально может определять будущие достижения в разработке искусственного интеллекта. Проект предоставляет настраиваемую реализацию PyTorch, LTI-стабильную рекуррентную инъекцию, адаптеры LoRA по глубине и воспроизводимую базу исследований.

Гомес заявил: «Независимо от того, является ли Mythos на самом деле RDT, OpenMythos предлагает исследовательскому сообществу конкретные ресурсы для изучения этого малоизученного класса архитектуры и его последствий для ИИ».

<час />

Автор рекомендуемого изображения

Проект OpenMythos утверждает, что Claude Mythos — преобразователь рекуррентной глубины

Related Stories

6G может достичь скорости 1 Тбит/с благодаря сетям на базе искусственного интеллекта

Новая теория связывает темную материю со скрытым пятым измерением

В окне поиска Windows 11 стало меньше беспорядка и больше контроля

Xiaomi запускает бренд SkyNomad с первой линейкой внедорожников с расширенным запасом хода