Обнаружение текста, сгенерированного ИИ, долгое время было проблемой для исследователей и разработчиков. С быстрым развитием больших языковых моделей (LLM), таких как Gemini Advanced от Google и GPT-4o от OpenAI, способность создавать текст, похожий на человеческий, стала все более сложной.
Однако, новое исследование Разработка исследователей из Тюбингенского университета и Северо-Западного университета представляет собой прорыв в идентификации контента, созданного с помощью ИИ.
Сосредоточившись на внезапном всплеске специфической лексики в научных работах, они разработали метод обнаружения использования LLM с удивительной точностью. Этот метод, вдохновленный исследованиями пандемии, в которых измерялась избыточная смертность, показывает, как изменения в использовании слов могут сигнализировать о наличии текста, сгенерированного ИИ.
Какие слова выдают контент ИИ?
Чтобы измерить эти изменения, команда ежегодно тщательно изучала частоту каждого слова. Сравнивая ожидаемую частоту слова, основанную на тенденциях до 2023 года, с фактическим использованием в 2023 и 2024 годах, они выявили резкое увеличение некоторых терминов. Например, слово «delves» встречалось в 25 раз чаще в аннотациях 2024 года, чем предполагалось. Аналогичным образом, «showcasing» и «underscores» показали девятикратное увеличение использования.
Вот наиболее часто используемые слова в тексте, сгенерированном ИИ, и соответствующие им темпы роста использования:
- Дельвес – увеличение в 25 раз
- Демонстрация – увеличение в 9 раз
- Подчеркивания – увеличение в 9 раз
- Потенциал – увеличение на 4,1 процентных пункта
- Выводы – увеличение на 2,7 процентных пункта
- Ключевой – увеличение на 2,6 процентных пункта
- Через – значительный рост (точная ставка не указана)
- Кроме того – значительный рост (точная ставка не указана)
- Всесторонний – значительный рост (точная ставка не указана)
- Улучшение – значительный рост (точная ставка не указана)
- Выставлено – значительный рост (точная ставка не указана)
- Инсайты – значительный рост (точная ставка не указана)
- В частности – значительный рост (точная ставка не указана)
- Особенно – значительный рост (точная ставка не указана)
- В пределах – значительный рост (точная ставка не указана)
Эти слова стали явными признаками участия ИИ, появляясь гораздо чаще, чем ожидалось. Хотя язык развивается естественным образом, такие резкие изменения необычны и часто связаны с крупными мировыми событиями.
В данном случае широкое распространение степеней LLM привело к заметному изменению словарного запаса научной литературы.
Вдохновение из анализа пандемии
Подход исследователей во многом опирается на методы, использовавшиеся во время пандемии COVID-19. Так же, как избыточные смерти рассчитывались путем сравнения наблюдаемых смертельных случаев с историческими данными, это исследование сравнивает текущее использование слов с историческими тенденциями для выявления аномалий. Они проанализировали более 14 миллионов научных рефератов, опубликованных на PubMed с 2010 по 2024 год, выявив значительный всплеск определенных слов, начавшийся в конце 2022 года, что совпало с более широким принятием LLM.
Исследователи отметили, что рост определенных слов, называемых «словами-маркерами», является явным индикатором использования LLM. Это явление отличается от прошлых изменений в словарном запасе, связанных с такими событиями, как пандемия COVID-19, когда наблюдался рост языка, перегруженного существительными.
Напротив, в период после LLM наблюдается всплеск глаголов, прилагательных и наречий. Этот сдвиг подчеркивает, как текст, сгенерированный ИИ, тонко меняет текстуру и стиль письма.
Определив эти слова-маркеры, исследователи подсчитали, что не менее 10% научных рефератов в 2024 году были созданы или в значительной степени созданы LLM. Эта оценка, скорее всего, консервативна, поскольку не все тексты с использованием ИИ будут содержать эти специфические маркеры. Тем не менее, наличие этих слов обеспечивает надежную метрику для обнаружения влияния ИИ в академическом письме.
Географические тенденции использования LLM
Исследование также выявило географические различия в принятии LLM. Такие страны, как Китай, Южная Корея и Тайвань, показали более высокую частоту использования маркерных слов в научных работах, что указывает на то, что LLM особенно ценны для неносителей английского языка. Эти инструменты помогают отточить и улучшить их письмо, делая его более отточенным и готовым к публикации.
Напротив, носители английского языка могут быть более искусны в распознавании и устранении этих маркеров, тем самым скрывая использование ими ИИ. Это различие говорит о том, что, хотя LLM широко используются по всему миру, их влияние более выражено в регионах, где английский не является основным языком.
Кредит на изображение: Freepik
Source: Избегайте этих слов любой ценой, если вы не хотите быть пойманными за использованием ИИ.