TechBriefly RU
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us
No Result
View All Result
TechBriefly RU
No Result
View All Result
Home Tech

Model Model «Производительность» в покемонах омрачена настройкой

byTB Editor
17/04/2025
in Tech
Reading Time: 1 min read
Model Model «Производительность» в покемонах омрачена настройкой
Share on FacebookShare on Twitter

Даже Покемон не защищен от противоречия ИИ. Недавний пост на X утверждал, что модель Google Gemini превзошла модель Claude Antropic в оригинальной игре Pokémon, что вызвало дебаты о методах сравнительного анализа.

На прошлой неделе пост на X стал вирусным, утверждая, что последняя модель Google Gemini превзошла флагманскую модель Anpropic Claude в оригинальной трилогии видеоигр Pokémon. По сообщениям, Близнецы достигли Лавандового города в потоке застройщика; Клод застрял на горе Луны в конце февраля. В сообщении говорится: «Близнецы буквально опередили Клод Атм в Покемонах после достижения Лавандового города», и включал скриншот потока с комментарием «119 живых просмотров только кстати, невероятно недооцененный поток».

Однако позже выяснилось, что Близнецы имели несправедливое преимущество. Пользователи на Reddit отметили, что разработчик, поддерживающий поток Близнецов, создал индивидуальный минимум, который помогает модели идентифицировать «плитки» в игре, например, деревья Cuttable. Этот пользовательский минимум уменьшает необходимость в Близнецах для анализа скриншотов перед принятием решений в игровом процессе, что дает ему значительное преимущество.

  Вкладка Twitter For You не для вас, если вы не являетесь подписчиком Blue

В то время как Pokémon рассматривается, в лучшем случае, полусердечный эталон ИИ, он служит поучительным примером того, как различные реализации контрольного тока могут влиять на результаты. Спор подчеркивает недостатки сравнительного анализа ИИ и то, как пользовательские реализации могут сделать сложное сравнение моделей.

Эта проблема не уникальна для покемонов. Anpropic сообщила о двух разных оценках для своей модели сонета Claude 3.7 на проверенном эталоне Swe-Bench, который оценивает способности кодирования модели. Без «пользовательского каркаса» Claude 3.7 Сонет достиг 62,3% точности, но с пользовательским каркасом точность увеличилась до 70,3%. Точно так же Meta настраивала версию своей модели Llama 4 Maverick, чтобы лучше работать на тесте LM Arena. Тонко настроенная версия набрала значительно выше, чем ванильная версия при той же оценке.

Учитывая, что тесты ИИ являются несовершенными мерами для начала, пользовательские и нестандартные реализации еще больше усложняют сравнение моделей. В результате, вероятно, станет все труднее сравнивать модели по мере их выпуска.

  Представлены Samsung Galaxy Note20 и Note20 Ultra 5G

Source: Model Model «Производительность» в покемонах омрачена настройкой

Related Posts

Простые шаги для установки последних патчей Android

Простые шаги для установки последних патчей Android

Как скачать бесплатные рингтоны с Zedge

Как скачать бесплатные рингтоны с Zedge

Как принудительно остановить приложения и службы на Android

Как принудительно остановить приложения и службы на Android

Amazon сообщает, что 97% поставляемых устройств поддерживают Alexa+

Amazon сообщает, что 97% поставляемых устройств поддерживают Alexa+

Простые шаги для установки последних патчей Android
Tech

Простые шаги для установки последних патчей Android

Как скачать бесплатные рингтоны с Zedge
Tech

Как скачать бесплатные рингтоны с Zedge

Как принудительно остановить приложения и службы на Android
Tech

Как принудительно остановить приложения и службы на Android

Amazon сообщает, что 97% поставляемых устройств поддерживают Alexa+
Tech

Amazon сообщает, что 97% поставляемых устройств поддерживают Alexa+

Apple заплатила разработчикам 550 миллиардов долларов с момента запуска App Store
Tech

Apple заплатила разработчикам 550 миллиардов долларов с момента запуска App Store

TechBriefly RU

© 2021 TechBriefly is a Linkmedya brand.

  • About
  • Blog
  • Contact
  • Contact Us
  • Cover Page
  • Modalités et Conditions
  • Politique de Confidentialité
  • Sur Tech Briefly
  • TechBriefly

Follow Us

No Result
View All Result
  • Tech
  • Business
  • How to
  • about
    • Sur Tech Briefly
    • Modalités et Conditions
    • Politique de Confidentialité
    • Contact Us

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy and Cookie Policy.