Anthropic не опубликовала технический документ по Claude Mythos, что побудило Кая Гомеса запустить OpenMythos, проект с открытым исходным кодом на GitHub. OpenMythos предназначен для реконструкции архитектуры Claude Mythos с использованием основных принципов PyTorch.
В проекте предполагается, что Claude Mythos представляет собой тип архитектуры, известный как трансформаторы рекуррентной глубины (RDT), которые фундаментально отличаются от традиционных трансформаторов. Стандартные преобразователи обрабатывают входные данные через ряд уникальных слоев с независимыми весами, тогда как RDT итеративно применяет фиксированный набор весов в течение одного прямого прохода.
Эта методология позволяет глубине рассуждений зависеть от количества итераций, выполняемых во время вывода. OpenMythos имеет структуру, состоящую из трех частей: Prelude, Recurrent Block и Coda, где Prelude и Coda состоят из стандартных слоев преобразователей, которые работают один раз, а Recurrent Block может повторяться до 16 раз.
На каждом шаге цикла скрытое состояние обновляется по уравнению: ht+1 = A·ht + B·e + Transformer(ht, e). Здесь e представляет собой закодированные входные данные из Prelude, которые повторно вводятся на каждой итерации для обеспечения непрерывности. Матрицы A и B определяют, насколько предыдущее скрытое состояние и закодированные входные данные влияют на следующее состояние.
Рекуррентный блок включает в себя уровень Mixture-of-Experts (MoE), который выборочно активирует подмножество экспертов для каждого токена, способствуя разнообразию вычислений. В каждой итерации используется другой набор экспертов, что позволяет выполнять различные вычисления при совместном использовании базовых весов.
OpenMythos также использует Multi-Latent Attention, что значительно снижает использование KV-памяти. Эта архитектура позволяет рассуждать без выброса промежуточных токенов, в отличие от стандартных подсказок цепочки мыслей, которые обрабатывают рассуждения с помощью промежуточных токенов.
OpenMythos решает общие проблемы обучения, связанные с циклическими моделями, такие как проблемы стабильности, такие как остаточный взрыв и чрезмерное мышление. Стабильность поддерживается за счет того, что спектральный радиус матрицы A остается меньше 1, как указано в архитектуре Parcae.
Остановка динамического адаптивного времени вычислений (ACT) реализована для определения критериев остановки цикла на основе сложности токена. Адаптеры LoRA с учетом глубины также используются для создания уникального поведения на каждой итерации, сводя к минимуму увеличение параметров.
Исследования показывают, что RDT с 770 миллионами параметров может обеспечить производительность, эквивалентную стандартному трансформатору с 1,3 миллиарда параметров. Это указывает на то, что глубина рассуждений масштабируется по мере вычислений вывода, бросая вызов существующим парадигмам о взаимосвязи между количеством параметров и возможностями модели.
OpenMythos предоставляет практическую реализацию для изучения динамики циклического преобразователя и глубины рассуждений, что потенциально может определять будущие достижения в разработке искусственного интеллекта. Проект предоставляет настраиваемую реализацию PyTorch, LTI-стабильную рекуррентную инъекцию, адаптеры LoRA по глубине и воспроизводимую базу исследований.
Гомес заявил: «Независимо от того, является ли Mythos на самом деле RDT, OpenMythos предлагает исследовательскому сообществу конкретные ресурсы для изучения этого малоизученного класса архитектуры и его последствий для ИИ».
<час />








