ChatGPT GPT-5.2 неправильно считает 'r' в клубнике

ChatGPT продолжает бороться с базовой задачей подсчета, несмотря на усовершенствования базовой модели. Чат-бот ошибочно утверждает, что слово «клубника» содержит две буквы «r», хотя на самом деле их количество равно трем. Эта проблема сохраняется даже в последней версии GPT-5.2, выпущенной в декабре 2025 года. Современные системы искусственного интеллекта с легкостью справляются со сложными операциями, такими как создание маркетинговых изображений, составление отчетов через агентские браузеры или сочинение песен, возглавляющих чарты. Однако они не справляются с простыми задачами, которые семилетний ребенок мог бы выполнить без особых усилий. Подсчет букв «r» в слове «клубника» иллюстрирует этот пробел. Слово распадается на «клубника», образуя три экземпляра буквы «р». Недавние тесты подтверждают, что проблема остается нерешенной. После запуска GPT-5.2 запросы к ChatGPT дали прямой ответ «два». Это происходит, несмотря на миллиарды долларов инвестиций, повышенные требования к оборудованию, которые привели к росту цен на оперативную память, а также значительное глобальное потребление воды, связанное с обучением ИИ. Основная причина заключается в токенизированном вводе и выводе больших языковых моделей, таких как ChatGPT. Вместо обработки отдельных букв система делит текст на лексемы, которые могут представлять собой целые слова, слоги или части слов. Для «клубники» OpenAI Tokenizer выявляет три токена: «st», «raw» и «berry». Только два из них — «сырой» и «ягодный» — содержат букву «р». Таким образом, модель считает токены с буквой «r», а не с отдельными буквами. Эта токенизация влияет на похожие слова. ChatGPT сообщает, что в слове «raspberry» также есть две буквы «r», пропускающие третью. Система рассматривает «ягоду» как один токен, сжимая две его буквы «r» в одну единицу. GPT-5.x использует новый метод токенизации «o200k_harmony», представленный в OpenAI o1-mini и GPT-4o, но ошибка «клубники» сохраняется. OpenAI устранил множество проблем, связанных с токенами, с момента дебюта ChatGPT в конце 2022 года. В ранних версиях возникали проблемы с конкретными фразами, которые приводили к ошибочным ответам или сбоям обработки. Патчи корректировали данные обучения и улучшали системы, разрешая такие случаи, как написание «Миссисипи» — Миссисипи — или перестановка слова «леденец» с буквами в правильном порядке. Однако модели ИИ, как правило, плохо работают при точном подсчете небольших значений, даже несмотря на то, что они превосходны в математике и решении задач. Тесты с классическими проблемными словами не выявили никаких ошибок, за исключением известного случая с клубникой. ChatGPT правильно обрабатывал «Миссисипи» и «леденец». Одним из примечательных остатков является строка «solidgoldmagikarp». В GPT-3 эта фраза вызывала сбои, включая оскорбления пользователей, неразборчивые выходные данные и ошибки обработки из-за особенностей токенизации. GPT-5.2 избегает краха, но вызывает галлюцинацию: он утверждает, что «solidgoldmagikarp» — это секретная шутка о покемонах, спрятанная разработчиками в репозиториях GitHub. Активация предположительно преобразует аватары, значки репозиториев и функции в элементы на тему покемонов. Это утверждение совершенно неверно, поскольку связано с историческими проблемами этой струны. Другие модели ИИ правильно отвечают на «клубничный» вопрос. Перплексити, Клод, Грок, Близнецы, Квен и Второй пилот идентифицируют по три буквы «р». Даже те, кто использует модели OpenAI, добиваются успеха, поскольку используют отдельные системы токенизации, которые лучше фиксируют отдельные буквы. ChatGPT работает как механизм прогнозирования, полагаясь на шаблоны обучения для прогнозирования последующего текста, а не на настоящий интеллект на уровне букв. Токенизация ставит эффективность выше буквального подсчета, что объясняет постоянные странности, такие как проблема с клубникой. С конца 2022 года OpenAI итеративно совершенствует обработку токенов. Первоначальный запуск выявил уязвимости в некоторых строках, что вызвало интроспективные циклы или реакции, подобные ярости. Систематические исправления, направленные на эти проблемы, такие как перечисление букв «Миссисипи» и перестановка «леденца», которые теперь работают точно. Более широкие ограничения в точном подсчете сохраняются во всех моделях. Подсчеты малых значений бросают вызов архитектуре трансформаторов, несмотря на сильные арифметические способности. Тест «solidgoldmagikarp» подчеркивает сохраняющуюся чувствительность токенов, развивающуюся от явных неудач до сфабрикованных историй. Сравнения подчеркивают роль токенизации. Perplexity использует собственную схему, позволяющую точно обнаружить букву «r» в слове «клубника». Клод из Anthropic, Грок из xAI, Близнецы из Google, Квен из Alibaba и Copilot от Microsoft — все они считают до трех. Различия в границах токенов допускают отсутствие детализации на уровне букв в настройке OpenAI. Инструмент OpenAI Tokenizer демонстрирует разделение: «клубника-ягода». В «St» отсутствует буква «r», в то время как в «raw» есть одна, а в «berry» — две, но они считаются одним токеном. «Малина» следует этому примеру: токены сжимают конечные буквы «r». Принятие GPT-5.2 «o200k_harmony» направлено на повышение эффективности по сравнению с эпохами o1-mini и GPT-4o, однако токенизация клубники сохраняет этот недостаток. История обновлений OpenAI предполагает, что целевые вмешательства работают в выявленных случаях. Ранний ChatGPT демонстрировал спирали, вызванные токенами, в неисчислимых фразах. «Solidgoldmagikarp» иллюстрирует: обработка токенов GPT-3 перегружена, что приводит к хаосу. GPT-5.2 переосмысливает его как несуществующее пасхальное яйцо GitHub, сохраняя ошибки благодаря изобретениям. Тесты подтверждают объём исправлений. В «Миссисипи» теперь точно перечислены 11 букв: четыре «i», четыре «s», две «p», одна «m». «Леденец» превращается в «таблетку» без изменений. Несмотря на это, сохраняется дефицит основного счета. Модели аппроксимируют, а не точно перечисляют в ограниченном контексте. Альтернативные провайдеры обходят стороной использование пользовательских токенизаторов. Подход Perplexity, дополненный поиском, конституционное обучение Клода, данные Грока в реальном времени, мультимодальный анализ Gemini, многоязычная оптимизация Qwen, корпоративная настройка Copilot — все это обеспечивает правильный клубничный ответ. Это неравенство подчеркивает важность токенизации. Кодирование парами байтов OpenAI отдает приоритет общим подсловам, жертвуя распределением редких букв в таких соединениях, как «клубника». Исторический контекст: Запуск в конце 2022 года был наполнен сообщениями о странностях токенов. OpenAI отреагировала быстрыми обновлениями, устранив большинство явных эксплойтов к 2025 году. GPT-5.2, которая сейчас пишется, воплощает в себе совокупные усовершенствования, но сохраняет клубничку как символический недостаток. Ссылка на боковую панель содержит соответствующий контент: «Знаете ли вы, что ChatGPT может это сделать?» Амира Болули от 27 сентября 2025 г.

Когда Сора станет доступна публике?

Source: ChatGPT GPT-5.2 неправильно считает ‘r’ в клубнике