DeepSeek, китайский стартап в области искусственного интеллекта, представил новую модель «MODEL1» в своем репозитории кода FlashMLA на GitHub, которая встречается 28 раз в 114 файлах. Это открытие совпадает с первой годовщиной выпуска DeepSeek R1. MODEL1 представляет собой архитектуру, отличную от DeepSeek-V3.2, имеющую внутреннее кодовое название «V32». Анализ кода, проведенный разработчиками, указывает на изменения в структуре кэша «ключ-значение», обработке разреженности и декодировании формата данных FP8. Эти изменения предполагают целевую реструктуризацию для оптимизации памяти и повышения эффективности вычислений. Раскрытие информации произошло через репозиторий FlashMLA DeepSeek, который содержит ядро декодирования Multi-Head Latent Attention компании для графических процессоров Nvidia Hopper. Согласно сообщениям в сообществе Reddit LocalLLaMA, в обновлениях исходного кода FlashMLA добавлена поддержка MODEL1, включая совместимость с будущей архитектурой Nvidia Blackwell (SM100). Изменения кода показывают, что MODEL1 возвращается к унифицированному стандарту 512 и включает в себя функции, описанные как «Осознавание положения вектора значений», а также возможные реализации системы условной памяти DeepSeek «Engram». По данным DeepSeek, планируется выпустить модель V4 следующего поколения примерно в середине февраля 2026 года, что совпадет с Лунным Новым годом 17 февраля. Информациякак цитирует Рейтер. Внутренние тесты, проведенные сотрудниками DeepSeek, показывают, что V4 может превзойти конкурирующие модели от Anthropic и OpenAI в тестах кодирования, особенно с подсказками длинного кода. Ожидается, что модель V4 будет интегрировать архитектуру Engram от DeepSeek, которая позволяет эффективно извлекать данные из контекстов, превышающих один миллион токенов, с помощью системы поиска основных фактов. Обнародование MODEL1 произошло через год после дебюта DeepSeek R1 в январе 2025 года. Это событие, названное венчурным капиталистом Марком Андриссеном «моментом AI Sputnik», привело к снижению рыночной стоимости Nvidia на 593 миллиарда долларов за один день. ИТПро сообщил. Сообщается, что обучение модели R1 DeepSeek стоило менее 6 миллионов долларов, но при этом она соответствовала модели o1 OpenAI или превосходила ее по математическим тестам и тестам кодирования. Впоследствии компания выпустила V3.1 в августе и V3.2 в декабре, причем V3.2 описывается как обеспечивающий производительность, эквивалентную OpenAI GPT-5.
Source: DeepSeek обнаруживает идентификатор MODEL1 перед запуском V4