Исследователи в DeepSeek в понедельник выпустили новую экспериментальную модель V3.2-EXP, которая предназначена для резко снижающих затраты на вывод при использовании в операциях с длинным контекстом. DeepSeek объявил модель в посте о обнимающемся лице, а также опубликовал связанный академический документ о GitHub, которая предоставляет подробную информацию о своей архитектуре и производительности. Самая важная особенность модели называется DeepSeek Sparsy Attity. Эта система использует модуль, называемый «индексером молнии» для определения приоритетов конкретных выдержек из окна контекста. После этого шага отдельная система, «система выбора токенов из тонкого граната», выбирает специфические токены изнутри этих выдержек. Эти выбранные токены затем загружаются в окно ограниченного внимания модуля. Эта комбинация позволяет редкой модели внимания работать через длинные части контекста со сравнительно небольшими нагрузками сервера. Преимущества системы важны для операций с длинным контекстом. Предварительное тестирование, проведенное Deepseek, показало, что цена простого вызова API может быть снижена на целых половину в этих ситуациях. Для создания более надежной оценки претензий потребуется дальнейшее тестирование. Модель открыта и свободно доступна для обнимающего лица, что позволит третьим тестам оценить результаты, представленные в статье. Новая модель DeepSeek является частью ряда недавних прорывов, которые решают проблему затрат на вывод. Эти затраты представляют серверные расходы на эксплуатацию предварительно обученной модели ИИ, которые отличаются от стоимости ее обучения. Исследователи DeepSeek искали способы сделать фундаментальную архитектуру трансформатора более эффективно, обнаружив, что существуют значительные улучшения. Расположенный в Китае, DeepSeek был необычной фигурой в секторе ИИ, особенно для тех, кто рассматривает исследования ИИ как националистическую борьбу между США и Китаем. Компания привлекла внимание в начале года благодаря своей модели R1, которая была обучена в основном подкрепляющим обучением по гораздо меньшей цене, чем ее американские конкуренты. Тем не менее, модель не вызвала оптовую революцию в обучении искусственного интеллекта, как и предсказывали некоторые, и компания отступила от внимания в течение нескольких месяцев. Новый подход «редкого внимания» вряд ли приведет к тому же взрыву, что и R1, но он все еще может научить нас поставщикам некоторым столь необходимым уловкам, чтобы помочь сохранить низкие затраты на вывод.
Source: DeepSeek выпускает модель v3.2-exp с разреженным вниманием





