Новаторская большая языковая модель Deepseek, R1, давно заинтриговала сообщество ИИ за его способность конкурировать с отраслевыми гигантами с удивительно низким бюджетом. Недавно опубликованный документ в журнале Природа Команда DeepSeek AI проливает свет на специфику: модель была обучена всего за 294 000 долларов с использованием 512 чипов NVIDIA H800. Это откровение подчеркивает экономически эффективный подход, который бросает вызов высоким затратам конкурентов, таких как OpenAI, подчеркивая инновационное использование DeepSeek в области подкрепления на основе проб и ошибок для достижения впечатляющих результатов. Основное инновация заключается в том, чтобы обходить традиционную зависимость от дорогих данных и демонстраций, связанных с человеком, которые являются трудоемкими и плохо масштабируются для сложных рассуждений. Вместо этого DeepSeek использовал методы обучения подкрепления, которые имитируют систему вознаграждения. Как объяснил доцент университета Карнеги Меллон Дафна Ипполито и аспирант Йимнг Чжан в сопроводительной статье, этот метод напоминает обучение ребенка с помощью видеоигр: «Поскольку ребенок перемещает свой аватар через игровой мир, они изучают пробные и ошибки, что некоторые действия (такие как сборы золотых монетов) зарабатывают на очки, а другие (такие, как наступление в« Сейчас », в том, что они получают в общих словах), в том, что они получают в общих словах), которые забегают в качестве э -э -э -э -э -э -э -э -э -э -э -э -э -э. DeepSeek-R1 был награжден высоким баллом, когда он правильно ответил на вопросы, и низкий балл, когда он дал неправильные ответы ». Эта стратегия подкрепления оказалась особенно эффективной для задач с проверенными правильными ответами, такими как математика и проблемы с программированием. В отличие от предыдущих методов, которые побудили модели для генерации пошаговых объяснений для повышения точности, DeepSeek присваивал баллы непосредственно на выходы, поощряя модель итерации до достижения правильного результата независимо. Результат? Повышенная точность без необходимости рассуждений под руководством человека, позволяя DeepSeek поддерживать конкурентоспособность, несмотря на его скромные ресурсы. Однако подход не без ограничений. Хотя выходы часто более точны, процесс внутреннего рассуждения модели становится менее прозрачным для человеческих наблюдателей. Например, когда его предлагают объяснить свой мыслительный процесс, DeepSeek-R1 иногда производил длинные ответы, превышающие 10 000 слов, непредсказуемо переключаясь между английским и китайским языком. Техника превосходна в бинарных сценариях правых или проводящих, но колеблется с нюансами или субъективными запросами, где отсутствуют четкие показатели оценки. Достижения DeepSeek приходят на фоне более широкого изучения связей компании с китайским правительством, поднимая вопросы о потенциальных предубеждениях в ее технологии. Недавние демонстрации, о которых сообщалось The Washington Post Выявленные в отношении поведения: модель отказалась генерировать код со значительными уязвимостями безопасности, когда подсказки указывают на участие в группах, которые считаются чувствительными китайскими властями. И наоборот, он создал менее безопасный код для тем, связанных с Тибетом, Тайванем, религиозным движением Фалуньгун или даже Исламским государством, что предполагает встроенные геополитические влияния, которые могут повлиять на его глобальное развертывание. Эта статья не только демистифицирует эффективную тренировочную парадигму Deepseek, но и вызывает дискуссии о будущем развития искусственного интеллекта. Используя обучение подкреплению, меньшие игроки, такие как DeepSeek, могут потенциально выровнять игровое поле против ресурсов. Тем не менее, инфузия национальной чувствительности служит предостерегающей нотой, подчеркивая необходимость прозрачности и этического надзора в инновациях ИИ. По мере развития отрасли такие откровения могут вдохновить методологии экономии средств по всему миру, при условии, что они рассматривают основные риски.

  NoteBooklm теперь превращает PDF и заметки в видео объяснения

Source: DeepSeek Trains Model R1 за 294 000 долл. США с использованием 512 чипов NVIDIA H800