DeepSeek выпустила свою новую модель искусственного интеллекта DeepSeek V4, заявив, что улучшенная производительность оптимизирована для чипов отечественного производства в Китае. Модель имеет сверхдлинный контекст в один миллион слов, расширяющий возможности агента, мировые знания и эффективность рассуждений.
DeepSeek V4 доступен в двух версиях: DeepSeek V4-Pro и DeepSeek V4-Flash. Последний вариант компания описывает как более эффективный и экономичный вариант. По данным DeepSeek, V4-Pro значительно превосходит другие модели с открытым исходным кодом в мировых тестах знаний и лишь немного уступает модели Google с закрытым исходным кодом Gemini-Pro-3.1.
Вариант V4-Pro включает в себя «режим максимальных рассуждений», предназначенный для расширения знаний моделей с открытым исходным кодом, что делает его главным претендентом в этой области. Ранее DeepSeek вызвал распродажу на фондовом рынке на триллион долларов своей более ранней моделью R1, которая бросила вызов системам искусственного интеллекта, таким как ChatGPT OpenAI, при более низких затратах на разработку.
Прошлогодний выпуск R1 привел к значительным убыткам крупных технологических компаний: Nvidia потеряла более 500 миллиардов долларов за один день. Запуск также ознаменовал первое крупное соревнование китайской компании, занимающейся искусственным интеллектом, с признанными технологическими гигантами США. Релиз DeepSeek произошел на фоне ограничений на экспорт полупроводников из США в Китай, особенно затрагивающих высокопроизводительные графические процессоры, необходимые для разработки искусственного интеллекта.
Чиповая система, используемая для обучения DeepSeek V4, не разглашается, но компания заявила, что поддерживает чипы как Nvidia, так и Huawei. DeepSeek V4 может обрабатывать до 384 000 токенов — фундаментальной единицы данных для моделей искусственного интеллекта. Это означает значительное улучшение по сравнению с его предшественником V3, который управлял всего 128 000 токенами.
Обновление позволяет обрабатывать несколько документов, позволяя ИИ понимать целые книги и полные базы данных кода. Компания утверждает, что эта возможность представляет собой «резкий скачок в вычислительной эффективности» и открывает новую эру для больших языковых моделей с контекстами длиной в один миллион.
DeepSeek V4-Pro превосходит Google Gemini-3.1-Pro, но все же отстает от модели Claude Opus 4.6 от Anthropic. DeepSeek стремится еще больше повысить интеллект, надежность и удобство использования модели в различных задачах и сценариях.
<час />








