OpenAI разработала новую модель CriticGPT на основе GPT-4, которая является важным шагом на пути к оценке результатов, производимых передовыми системами искусственного интеллекта. Модель предназначена для обнаружения ошибок в коде ChatGPT.
Исследования показали, что когда люди изучают код ChatGPT с помощью CriticGPT, они выполняют задания на 60% лучше, чем те, кто не пользуется помощью. OpenAI стремится предоставить поддержку искусственного интеллекта тренерам, интегрируя аналогичные модели в процесс маркировки «Reinforcement Learning from Human Feedback» (RLHF). Так что же такое CriticGPT? Давайте рассмотрим подробнее.
Что такое CriticGPT и что он делает?
CriticGPT играет важную роль в процессе RLHF. По мере того, как рассуждения и поведенческие способности ChatGPT улучшаются, его ошибки становятся более тонкими и их сложнее обнаружить для тренеров ИИ, и CriticGPT, как модель, обученная писать критику, которая подчеркивает неточности в ответах ChatGPT, помогает тренерам выявлять проблемы в ответах, созданных моделью, без помощи ИИ. Использование людьми CriticGPT позволяет ИИ улучшать их навыки, что приводит к более тщательной критике и моделям с меньшим количеством галлюцинаторных ошибок. Для получения дополнительной информации вы можете посетить эта ссылка.
Мы составили таблицу некоторых функций CriticGPT, которые привлекли наше внимание.:
Особенность | Описание |
Идентификация ошибки | Выявляет ошибки в выводе кода ChatGPT, в том числе незначительные. |
Генерация критики | Создает критику, подчеркивающую неточности в ответах ChatGPT. |
Человеческое расширение | Повышает навыки тренеров-людей, что приводит к более полной критике, чем только у людей. |
Уменьшение галлюцинаций | Вызывает меньше галлюцинаций (ложных срабатываний) и придирок (бесполезной критики), чем ChatGPT. |
Улучшенная маркировка RLHF | Повышает эффективность и точность маркировки RLHF за счет предоставления явной помощи ИИ. |
Поиск во время тестирования | Использует дополнительный поиск во время теста для создания более длинных и полных критических отзывов. |
Конфигурация компромисса между точностью и полнотой | Позволяет настраивать компромисс между частотой галлюцинаций и количеством обнаруженных ошибок. |
Обучение CriticGPT осуществляется с использованием метода RLHF. Но в отличие от ChatGPT, CriticGPT видит много входных данных с ошибками, которые затем должен критиковать. Тренеры ИИ вручную добавляют ошибки в код, написанный ChatGPT, а затем пишут образцы отзывов, как будто они поймали добавленную ими ошибку. Сравнивая несколько критических замечаний измененного кода, один и тот же человек может легко распознать, когда критика поймала добавленную им ошибку. Эксперименты проверяют, ловит ли CriticGPT вставленные ошибки и «естественно возникающие» ошибки ChatGPT, пойманные предыдущим тренером. Инструкторы предпочитают критику CriticGPT критике ChatGPT для естественно возникающих ошибок в 63% случаев.
CriticGPT также имеет некоторые ограничения. Модель обучается на коротких ответах ChatGPT. Чтобы контролировать более длинные и сложные задачи в будущем, необходимо разработать методы, которые помогут тренерам понимать эти задачи. Кроме того, модели все еще галлюцинируют, и иногда тренеры допускают ошибки маркировки, увидев эти галлюцинации. В некоторых случаях реальные ошибки могут быть распределены по многим частям ответа. OpenAI подчеркивает необходимость в более совершенных инструментах для согласования все более сложных систем ИИ. Исследование CriticGPT показывает потенциал применения RLHF к GPT-4, чтобы помочь людям генерировать более качественные данные RLHF для GPT-4. OpenAI планирует и дальше масштабировать эту работу и применять ее на практике.
Предоставленное изображение предоставлено: OpenAI
Source: OpenAI представляет CriticGPT для отладки кода, созданного ChatGPT