Познакомьтесь с оценками OpenAI. Наряду с выпуском GPT-4 OpenAI также выпустила программную среду с открытым исходным кодом для тестирования эффективности своих моделей ИИ.
Команда OpenAI анонсировала новый набор инструментов, которые они называют Evals, которые позволят любому сообщать о проблемах с моделями компании и вносить изменения.
мы предоставляем OpenAI Evals с открытым исходным кодом, нашу платформу для автоматической оценки производительности моделей ИИ, чтобы каждый мог помочь улучшить наши модели.
— Сэм Альтман (@sama) 14 марта 2023 г.
Что такое оценки OpenAI?
В Сообщение блогаOpenAI описывает эту методологию как «краудсорсинговый подход» для проверки моделей.
«Мы используем Evals для управления разработкой наших моделей (как для выявления недостатков, так и для предотвращения регрессий), а наши пользователи могут применять его для отслеживания производительности в разных версиях моделей и интеграции продуктов», — пишет OpenAI. «Мы надеемся, что Evals станет средством обмена и краудсорсинга тестов, представляющих максимально широкий набор режимов отказа и сложных задач».
-OpenAI
Цель проекта OpenAI Evals — создать и выполнить эталонные тесты, которые можно использовать для оценки эффективности таких моделей, как GPT-4, посредством тщательного анализа их производительности. С помощью Eval программисты могут генерировать вопросы, используя наборы данных, оценивать точность ответов модели OpenAI и оценивать эффективность различных наборов данных и моделей.
Eval не только обратно совместим с несколькими известными тестами ИИ, но также позволяет создавать новые классы для использования собственной логики оценки. Чтобы служить эталоном, OpenAI разработал оценку логических головоломок с 10 примерами проблем, с которыми борется GPT-4.
Это все волонтерская работа, что является огромным обломом. Тем не менее, OpenAI намеревается предоставить доступ к GPT-4 лицам, которые дают «высококачественные» тесты, чтобы стимулировать использование Eval.
«Мы считаем, что Eval станет неотъемлемой частью процесса использования и расширения наших моделей, и мы приветствуем прямой вклад, вопросы и отзывы».
-OpenAI
OpenAI, объявившая о прекращении использования потребительских данных для обучения своих моделей по умолчанию, присоединяется к тем, кто обратился к краудсорсингу, чтобы усилить модели ИИ с помощью Eval.
Вы в GPT-4? Проверьте это:
- Быстрое сравнение ChatGPT
- GPT-4 против ChatGPT