TechBriefly RU
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly RU
No Result
View All Result
Home Tech

Model Model «Производительность» в покемонах омрачена настройкой

byTB Editor
17/04/2025
in Tech
Reading Time: 1 min read
Model Model «Производительность» в покемонах омрачена настройкой
Share on FacebookShare on Twitter

Даже Покемон не защищен от противоречия ИИ. Недавний пост на X утверждал, что модель Google Gemini превзошла модель Claude Antropic в оригинальной игре Pokémon, что вызвало дебаты о методах сравнительного анализа.

На прошлой неделе пост на X стал вирусным, утверждая, что последняя модель Google Gemini превзошла флагманскую модель Anpropic Claude в оригинальной трилогии видеоигр Pokémon. По сообщениям, Близнецы достигли Лавандового города в потоке застройщика; Клод застрял на горе Луны в конце февраля. В сообщении говорится: «Близнецы буквально опередили Клод Атм в Покемонах после достижения Лавандового города», и включал скриншот потока с комментарием «119 живых просмотров только кстати, невероятно недооцененный поток».

Однако позже выяснилось, что Близнецы имели несправедливое преимущество. Пользователи на Reddit отметили, что разработчик, поддерживающий поток Близнецов, создал индивидуальный минимум, который помогает модели идентифицировать «плитки» в игре, например, деревья Cuttable. Этот пользовательский минимум уменьшает необходимость в Близнецах для анализа скриншотов перед принятием решений в игровом процессе, что дает ему значительное преимущество.

  Cyberpunk 2077 Patch 1.5: версии PS5 и Xbox Series S/X уже здесь

В то время как Pokémon рассматривается, в лучшем случае, полусердечный эталон ИИ, он служит поучительным примером того, как различные реализации контрольного тока могут влиять на результаты. Спор подчеркивает недостатки сравнительного анализа ИИ и то, как пользовательские реализации могут сделать сложное сравнение моделей.

Эта проблема не уникальна для покемонов. Anpropic сообщила о двух разных оценках для своей модели сонета Claude 3.7 на проверенном эталоне Swe-Bench, который оценивает способности кодирования модели. Без «пользовательского каркаса» Claude 3.7 Сонет достиг 62,3% точности, но с пользовательским каркасом точность увеличилась до 70,3%. Точно так же Meta настраивала версию своей модели Llama 4 Maverick, чтобы лучше работать на тесте LM Arena. Тонко настроенная версия набрала значительно выше, чем ванильная версия при той же оценке.

Учитывая, что тесты ИИ являются несовершенными мерами для начала, пользовательские и нестандартные реализации еще больше усложняют сравнение моделей. В результате, вероятно, станет все труднее сравнивать модели по мере их выпуска.

  Что такое Reddit R Place: как присоединиться и когда это закончится?

Source: Model Model «Производительность» в покемонах омрачена настройкой

Related Posts

Google запускает обновленную страницу Trends Explore с Gemini

Google запускает обновленную страницу Trends Explore с Gemini

Verizon устранил сбой в общенациональной сети после 10-часового отключения электроэнергии

Verizon устранил сбой в общенациональной сети после 10-часового отключения электроэнергии

Netflix запускает оригинальные видеоподкасты, чтобы бросить вызов доминированию YouTube

Netflix запускает оригинальные видеоподкасты, чтобы бросить вызов доминированию YouTube

Civilization VII присоединяется к Apple Arcade после неоднозначных отзывов о запуске

Civilization VII присоединяется к Apple Arcade после неоднозначных отзывов о запуске

Google запускает обновленную страницу Trends Explore с Gemini
Tech

Google запускает обновленную страницу Trends Explore с Gemini

Verizon устранил сбой в общенациональной сети после 10-часового отключения электроэнергии
Tech

Verizon устранил сбой в общенациональной сети после 10-часового отключения электроэнергии

Netflix запускает оригинальные видеоподкасты, чтобы бросить вызов доминированию YouTube
Tech

Netflix запускает оригинальные видеоподкасты, чтобы бросить вызов доминированию YouTube

Civilization VII присоединяется к Apple Arcade после неоднозначных отзывов о запуске
Tech

Civilization VII присоединяется к Apple Arcade после неоднозначных отзывов о запуске

Удаленная блокировка iPhone вашего ребенка без физического доступа
Tech

Удаленная блокировка iPhone вашего ребенка без физического доступа

TechBriefly RU

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.