TechBriefly RU
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly RU
No Result
View All Result
Home Tech

DeepSeek выпускает модель v3.2-exp с разреженным вниманием

byKerem Gülen
30/09/2025
in Tech
Reading Time: 1 min read
DeepSeek выпускает модель v3.2-exp с разреженным вниманием
Share on FacebookShare on Twitter

Исследователи в DeepSeek в понедельник выпустили новую экспериментальную модель V3.2-EXP, которая предназначена для резко снижающих затраты на вывод при использовании в операциях с длинным контекстом. DeepSeek объявил модель в посте о обнимающемся лице, а также опубликовал связанный академический документ о GitHub, которая предоставляет подробную информацию о своей архитектуре и производительности. Самая важная особенность модели называется DeepSeek Sparsy Attity. Эта система использует модуль, называемый «индексером молнии» для определения приоритетов конкретных выдержек из окна контекста. После этого шага отдельная система, «система выбора токенов из тонкого граната», выбирает специфические токены изнутри этих выдержек. Эти выбранные токены затем загружаются в окно ограниченного внимания модуля. Эта комбинация позволяет редкой модели внимания работать через длинные части контекста со сравнительно небольшими нагрузками сервера. Преимущества системы важны для операций с длинным контекстом. Предварительное тестирование, проведенное Deepseek, показало, что цена простого вызова API может быть снижена на целых половину в этих ситуациях. Для создания более надежной оценки претензий потребуется дальнейшее тестирование. Модель открыта и свободно доступна для обнимающего лица, что позволит третьим тестам оценить результаты, представленные в статье. Новая модель DeepSeek является частью ряда недавних прорывов, которые решают проблему затрат на вывод. Эти затраты представляют серверные расходы на эксплуатацию предварительно обученной модели ИИ, которые отличаются от стоимости ее обучения. Исследователи DeepSeek искали способы сделать фундаментальную архитектуру трансформатора более эффективно, обнаружив, что существуют значительные улучшения. Расположенный в Китае, DeepSeek был необычной фигурой в секторе ИИ, особенно для тех, кто рассматривает исследования ИИ как националистическую борьбу между США и Китаем. Компания привлекла внимание в начале года благодаря своей модели R1, которая была обучена в основном подкрепляющим обучением по гораздо меньшей цене, чем ее американские конкуренты. Тем не менее, модель не вызвала оптовую революцию в обучении искусственного интеллекта, как и предсказывали некоторые, и компания отступила от внимания в течение нескольких месяцев. Новый подход «редкого внимания» вряд ли приведет к тому же взрыву, что и R1, но он все еще может научить нас поставщикам некоторым столь необходимым уловкам, чтобы помочь сохранить низкие затраты на вывод.

  Руководство для начинающих Cities Skylines: все, что вам нужно знать

Source: DeepSeek выпускает модель v3.2-exp с разреженным вниманием

Related Posts

Биткойн упал на 3% до  300 из-за падения альткойнов

Биткойн упал на 3% до $87 300 из-за падения альткойнов

LG представит свой телевизор Gallery TV на выставке CES 2026

LG представит свой телевизор Gallery TV на выставке CES 2026

Высокие затраты на оперативную память из-за бума искусственного интеллекта могут задержать появление новых Xbox и PlayStation

Высокие затраты на оперативную память из-за бума искусственного интеллекта могут задержать появление новых Xbox и PlayStation

HP готовит презентацию OLED-монитора OMEN к выставке CES 2026

HP готовит презентацию OLED-монитора OMEN к выставке CES 2026

Биткойн упал на 3% до  300 из-за падения альткойнов
Tech

Биткойн упал на 3% до $87 300 из-за падения альткойнов

LG представит свой телевизор Gallery TV на выставке CES 2026
Tech

LG представит свой телевизор Gallery TV на выставке CES 2026

Высокие затраты на оперативную память из-за бума искусственного интеллекта могут задержать появление новых Xbox и PlayStation
Tech

Высокие затраты на оперативную память из-за бума искусственного интеллекта могут задержать появление новых Xbox и PlayStation

HP готовит презентацию OLED-монитора OMEN к выставке CES 2026
Tech

HP готовит презентацию OLED-монитора OMEN к выставке CES 2026

Лидер раскрывает планы Xiaomi по выпуску высокопроизводительного устройства eSIM в 2026 году
Tech

Лидер раскрывает планы Xiaomi по выпуску высокопроизводительного устройства eSIM в 2026 году

TechBriefly RU

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.