OpenAI CHATGPT-5 показывает 25% частоту ошибок в исследовании

Согласно статье из руководства Тома, исследование модели Openai’s CHATGPT-5 показало, что оно дает неправильные ответы примерно в 25% случаев. Хотя это подчеркивает постоянную частоту ошибок, модель демонстрирует значительные улучшения точности по сравнению с его предшественником GPT-4. В частности, CHATGPT-5 допускает примерно на 45% меньше фактических ошибок и генерирует в шесть раз меньше галлюцинированных или полностью выдуманных ответов, чем GPT-4. Несмотря на этот прогресс, в исследовании сообщается, что модель все еще страдает от самоуверенности и может уверенно представить неверную информацию, характеристика, которую часто называют галлюцинацией. Производительность и точность модели варьируются в зависимости от конкретной задачи. Например, он набрал 94,6% в тесте MATEMATICS 2025 года и имел 74,9% успех на наборе реальных задач кодирования. На более сложном MMLU Pro Benchmark, академическом тесте, охватывающем науку, математику и историю, CHATGPT-5 достиг точности примерно 87%. Тем не менее, это все еще делает ошибки в общих знаниях и сложных вопросах рассуждений. Исследование приписывает эти ошибки нескольким основным факторам. К ним относятся ограничения модели в полном понимании нюансированных вопросов, использование учебных данных, которые могут быть устаревшими или неполными, и ее фундаментальный дизайн, основанный на вероятностной прогнозировании закономерности. Этот механизм может иногда генерировать ответы, которые кажутся правдоподобными, но фактически являются неточными. Статья рекомендует пользователям проверить любую критическую информацию, полученную из CATGPT-5. Учитывая, что модель не является непогрешимой, эта осторожность особенно важна для запросов, связанных с профессиональными, академическими или медицинскими вопросами, даже с документированными улучшениями модели в надежности.

Потерянный ковчег Дворец Хильдебрандта Путеводитель по бездонному подземелью

Source: OpenAI CHATGPT-5 показывает 25% частоту ошибок в исследовании

OpenAI CHATGPT-5 показывает 25% частоту ошибок в исследовании

Related Stories

Apple активирует Siri AI на Apple Watch в watchOS 27 beta 3

По слухам, Apple выпустит складной iPhone Ultra в 2026 году.

Google меняет правила хранения резервных копий телефонов Android

Samsung планирует четвертую бета-версию One UI 9 для Galaxy S26