Обнаружение ИИ как оружие против «фабрик научных статей» (paper mills)

Современные издатели сталкиваются с множеством вызовов, связанных с проверкой подлинности подаваемых текстов. Одной из наиболее серьёзных угроз последних лет стало массовое использование генеративных моделей искусственного интеллекта, таких как ChatGPT, для создания или «улучшения» научных статей. Хотя эти инструменты могут поддерживать креативность, всё чаще их применяют неэтично — для генерации контента без указания на использование ИИ.


Явление ИИ-сгенерированного контента в академическом издательстве уже нельзя назвать маргинальным. Согласно журналу Applied Intelligence, ChatGPT упоминался примерно в 10% статей, опубликованных в каждом из проанализированных изданий, что показывает, как быстро авторы разных дисциплин адаптировали ИИ-инструменты.


Особое беспокойство в академической среде вызывает рост так называемых фабрик научных статей (paper mills) — неформальных или даже криминальных организаций, которые готовят научные статьи «под заказ», зачастую в промышленных масштабах. Эти «фабрики контента» предлагают клиентам готовые публикации, возможность соавторства или продажу статей в определённые журналы. Всё чаще они используют генеративный ИИ для быстрого создания текстов, которые выглядят оригинальными и формально корректными.


Научные издатели являются одной из главных мишеней этой практики — особенно те, кто публикует статьи в открытом доступе и не придерживается строгих стандартов публикации. Фабрики статей эксплуатируют тот факт, что многие редакции полагаются исключительно на анализ подобия для выявления плагиата. В таких случаях ИИ-сгенерированные статьи часто проходят традиционные проверки оригинальности, так как стандартные системы ориентированы на поиск совпадений с уже существующими источниками (публикации, интернет-ресурсы).


Однако тексты, созданные ИИ, могут быть «оригинальными» в том смысле, что они не содержат прямых заимствований, так как генерируются статистическим предсказанием языка. Только стилометрический и лингвистический анализ — то есть детекция ИИ — способен выявить и аргументированно показать, что текст не является результатом индивидуального авторского труда, а создан языковой моделью.


Для академических редакторов, отвечающих за качество и подлинность публикаций, такая информация имеет ключевое значение — как с этической, так и с юридической точки зрения. Согласно отчёту Nature за 2024 год, более 10 000 подозрительных научных статей, опубликованных в последние годы в журналах Азии и Восточной Европы, могли происходить из фабрик статей. Многие из них содержали фальсифицированные данные, случайные графики и диаграммы, а также тексты, сгенерированные или отредактированные ИИ.


В ответ на это детекция ИИ — особенно в сочетании с анализом метаданных (например, повторяющееся авторство, аффилиации, быстрая подача множества текстов) — становится ключевым элементом борьбы с подобной практикой. Исследование Стэнфордского университета показало, что модели детекции ИИ правильно выявляли сгенерированные фрагменты в 9 из 10 случаев, если анализировались более длинные академические тексты.


Таким образом, детекция ИИ становится прорывным инструментом: анализируя стиль и структуру текста, она позволяет указать, что работа, несмотря на отсутствие совпадений, демонстрирует признаки машинной генерации. Более того, многие отчёты о детекции ИИ позволяют выделить, какие части текста могли быть созданы языковыми моделями, а какие — написаны человеком, что крайне важно при оценке вклада отдельных авторов.


Характерный пример: известный европейский издатель, сотрудничающий с международной индексирующей базой, благодаря детекции ИИ выявил, что несколько авторов из одного вуза подали дюжину статей за короткий срок с почти идентичной структурой, стилем и оформлением графиков. Хотя каждая статья была «оригинальной» в том смысле, что не имела текстовых совпадений, отчёты показали, что основное содержание во всех случаях несло типичные признаки текстов, созданных ChatGPT или Gemini. Издатель уведомил редакционную коллегию журнала, и после внутреннего аудита все статьи были отозваны, а учреждение взято под дополнительный контроль.


В итоге внедрение детекции ИИ в системы антиплагиата даёт множество преимуществ. Прежде всего, оно укрепляет доверие к издателю, обеспечивая рецензентов и читателей гарантией подлинности опубликованного контента. Оно также поддерживает процесс рецензирования, предоставляя редакторам и экспертам дополнительный инструмент для оценки качества материалов. Оно помогает предотвратить злоупотребления — уже сам факт проверки на ИИ снижает соблазн скрытого использования — и обеспечивает соответствие требованиям международных баз данных. Например, Scopus и Web of Science начинают требовать прозрачности в отношении использования ИИ.


В эпоху, когда технологии ИИ стремительно меняют ландшафт академической коммуникации, издатели должны столь же динамично реагировать на новые вызовы. Детекция ИИ в системах антиплагиата — это не роскошь, а необходимость, если мы заботимся о сохранении этических стандартов, достоверности публикаций и защите научного наследия.


Источники:


Picazo-Sanchez, P., Ortiz-Martin, L. (2024) “Analysing the impact of ChatGPT in research. Applied Intelligence”, https://doi.org/10.1007/s10489-024-05298-0


Van Noorden, R. (2023), “More than 10,000 research papers were retracted in 2023 – a new record”, Nature, www.nature.com/articles/d41586-023-03974-8


Cell Press (2023), “AI-generated academic science writing can be identified with over 99% accuracy”, ScienceDaily, www.sciencedaily.com/releases/2023/06/230607124132.htm


Автор: Эвелина Кохановска

Первоначально опубликовано в Biblioteka Analiz № 645 (13/2025)


Оригинал статьи (на польском): rynek-ksiazki.pl