Познакомьтесь с оценками OpenAI. Наряду с выпуском GPT-4 OpenAI также выпустила программную среду с открытым исходным кодом для тестирования эффективности своих моделей ИИ.

Команда OpenAI анонсировала новый набор инструментов, которые они называют Evals, которые позволят любому сообщать о проблемах с моделями компании и вносить изменения.

Что такое оценки OpenAI?

В Сообщение блогаOpenAI описывает эту методологию как «краудсорсинговый подход» для проверки моделей.

«Мы используем Evals для управления разработкой наших моделей (как для выявления недостатков, так и для предотвращения регрессий), а наши пользователи могут применять его для отслеживания производительности в разных версиях моделей и интеграции продуктов», — пишет OpenAI. «Мы надеемся, что Evals станет средством обмена и краудсорсинга тестов, представляющих максимально широкий набор режимов отказа и сложных задач».

-OpenAI

Цель проекта OpenAI Evals — создать и выполнить эталонные тесты, которые можно использовать для оценки эффективности таких моделей, как GPT-4, посредством тщательного анализа их производительности. С помощью Eval программисты могут генерировать вопросы, используя наборы данных, оценивать точность ответов модели OpenAI и оценивать эффективность различных наборов данных и моделей.

  Представлен контроллер PS5 DualSense V2: характеристики, цена и дата выпуска

Вы можете улучшить GPT-4 с помощью OpenAI EvalsEval не только обратно совместим с несколькими известными тестами ИИ, но также позволяет создавать новые классы для использования собственной логики оценки. Чтобы служить эталоном, OpenAI разработал оценку логических головоломок с 10 примерами проблем, с которыми борется GPT-4.

Это все волонтерская работа, что является огромным обломом. Тем не менее, OpenAI намеревается предоставить доступ к GPT-4 лицам, которые дают «высококачественные» тесты, чтобы стимулировать использование Eval.

«Мы считаем, что Eval станет неотъемлемой частью процесса использования и расширения наших моделей, и мы приветствуем прямой вклад, вопросы и отзывы».

-OpenAI

OpenAI, объявившая о прекращении использования потребительских данных для обучения своих моделей по умолчанию, присоединяется к тем, кто обратился к краудсорсингу, чтобы усилить модели ИИ с помощью Eval.

Вы в GPT-4? Проверьте это:

  • Быстрое сравнение ChatGPT
  • GPT-4 против ChatGPT

Source: Вы можете улучшить GPT-4 с помощью OpenAI Evals

  AMD Ryzen 5 5600H обходит Geekbench, до 20 процентов быстрее, чем Intel Core i7-10750H