Model Model «Производительность» в покемонах омрачена настройкой

Даже Покемон не защищен от противоречия ИИ. Недавний пост на X утверждал, что модель Google Gemini превзошла модель Claude Antropic в оригинальной игре Pokémon, что вызвало дебаты о методах сравнительного анализа.

На прошлой неделе пост на X стал вирусным, утверждая, что последняя модель Google Gemini превзошла флагманскую модель Anpropic Claude в оригинальной трилогии видеоигр Pokémon. По сообщениям, Близнецы достигли Лавандового города в потоке застройщика; Клод застрял на горе Луны в конце февраля. В сообщении говорится: «Близнецы буквально опередили Клод Атм в Покемонах после достижения Лавандового города», и включал скриншот потока с комментарием «119 живых просмотров только кстати, невероятно недооцененный поток».

Однако позже выяснилось, что Близнецы имели несправедливое преимущество. Пользователи на Reddit отметили, что разработчик, поддерживающий поток Близнецов, создал индивидуальный минимум, который помогает модели идентифицировать «плитки» в игре, например, деревья Cuttable. Этот пользовательский минимум уменьшает необходимость в Близнецах для анализа скриншотов перед принятием решений в игровом процессе, что дает ему значительное преимущество.

Вкладка Twitter For You не для вас, если вы не являетесь подписчиком Blue

В то время как Pokémon рассматривается, в лучшем случае, полусердечный эталон ИИ, он служит поучительным примером того, как различные реализации контрольного тока могут влиять на результаты. Спор подчеркивает недостатки сравнительного анализа ИИ и то, как пользовательские реализации могут сделать сложное сравнение моделей.

Эта проблема не уникальна для покемонов. Anpropic сообщила о двух разных оценках для своей модели сонета Claude 3.7 на проверенном эталоне Swe-Bench, который оценивает способности кодирования модели. Без «пользовательского каркаса» Claude 3.7 Сонет достиг 62,3% точности, но с пользовательским каркасом точность увеличилась до 70,3%. Точно так же Meta настраивала версию своей модели Llama 4 Maverick, чтобы лучше работать на тесте LM Arena. Тонко настроенная версия набрала значительно выше, чем ванильная версия при той же оценке.

Учитывая, что тесты ИИ являются несовершенными мерами для начала, пользовательские и нестандартные реализации еще больше усложняют сравнение моделей. В результате, вероятно, станет все труднее сравнивать модели по мере их выпуска.

Представлены Samsung Galaxy Note20 и Note20 Ultra 5G

Source: Model Model «Производительность» в покемонах омрачена настройкой