AI-Erkennung als Waffe gegen „Paper Mills“ 

Verlagshäuser sehen sich heute zahlreichen Herausforderungen bei der Überprüfung der Authentizität eingereichter Texte gegenüber. Eines der größten Risiken in den letzten Jahren ist der massenhafte Einsatz generativer KI-Modelle wie ChatGPT zur Erstellung oder „Optimierung“ wissenschaftlicher Arbeiten. Obwohl diese Werkzeuge die Kreativität unterstützen können, werden sie zunehmend unethisch verwendet – um Inhalte zu generieren, ohne den Einsatz von KI offen zu legen.


Das Phänomen KI-generierter Inhalte im akademischen Verlagswesen ist nicht marginal. Laut der Fachzeitschrift Applied Intelligence wurde ChatGPT in etwa zehn Prozent der in den analysierten Zeitschriften veröffentlichten Artikel erwähnt, was zeigt, dass Autoren aus verschiedenen Disziplinen KI-Werkzeuge schnell adaptiert haben.


Ein besonders besorgniserregendes Phänomen in der akademischen Welt ist der Aufstieg sogenannter „Paper Mills“ – informelle oder gar kriminelle Organisationen, die wissenschaftliche Arbeiten auf Bestellung in oft großem Umfang erstellen. Diese Content-Fabriken bieten fertige Publikationen, die Möglichkeit zur Mitautorschaft oder den Verkauf von Texten an bestimmte Zeitschriften. Immer häufiger setzen sie generative KI ein, um scheinbar originelle und formal korrekte Texte schnell zu erzeugen.


Wissenschaftliche Verlage sind eines der Hauptziele dieses Geschäftsmodells – insbesondere solche, die Open-Access-Artikel publizieren und keine strengen Publikationsstandards durchsetzen. Paper Mills nutzen aus, dass viele Redaktionen ausschließlich auf Ähnlichkeitsanalysen zur Plagiaterkennung setzen. In diesem Szenario bestehen KI-generierte Artikel oft die klassischen Originalitätsprüfungen, da Standard-Plagiaterkennungssysteme auf die Identifikation von Übereinstimmungen zwischen dem eingereichten Text und in Datenbanken (Publikationen, Internetquellen) verfügbaren Quellen fokussiert sind.


Allerdings kann KI-generierter Text im Sinne direkter Textübereinstimmungen „originell“ sein, da er auf statistischen Sprachvorhersagen basiert – und somit keine Plagiate enthält. Nur stilometrische und linguistische Analysen – also KI-Erkennung – können Hinweise liefern, dass ein Text nicht durch individuelle Autor:innenarbeit entstanden ist, sondern von einem Sprachmodell erstellt wurde.


Für akademische Redakteur:innen, die für Qualität und Authentizität von Publikationen verantwortlich sind, sind solche Informationen sowohl ethisch als auch rechtlich von enormer Bedeutung. Laut einem Nature-Bericht aus dem Jahr 2024 könnten über 10 000 verdächtige wissenschaftliche Arbeiten, die in den vergangenen Jahren in Zeitschriften aus Asien und Osteuropa veröffentlicht wurden, von Paper Mills stammen. Viele enthielten gefälschte Daten, zufällige Diagramme und Grafiken sowie Texte, die generiert oder von KI überarbeitet wurden.


Als Antwort darauf wird die KI-Erkennung – insbesondere in Kombination mit der Analyse von Metadaten (z. B. sich wiederholende Autor:innen, Zugehörigkeiten, schnelle Einreichung vieler Texte) – zunehmend als zentrales Instrument zur Bekämpfung dieses Missbrauchs eingesetzt. Eine Studie der Stanford University zeigte, dass KI-Erkennungsmodelle in 9 von 10 Fällen generierte Abschnitte korrekt identifizieren konnten, sofern längere wissenschaftliche Texte analysiert wurden.


KI-Erkennung entwickelt sich so zu einem bahnbrechenden Tool: Durch die Analyse von Sprachstil und -struktur kann sie anzeigen, dass ein Text – trotz fehlender Übereinstimmungen – Merkmale aufweist, die typisch für maschinell generierte Inhalte sind. Viele KI-Erkennungsberichte zeigen zudem, welche Textpassagen wahrscheinlich von Sprachmodellen stammen und welche eher menschlich geschrieben sind – was entscheidend für die Bewertung der Beiträge einzelner Autor:innen sein kann.


Ein Beispiel liefert ein renommiertes europäisches Verlagshaus, das mit einer internationalen Indexierungsdatenbank kooperiert. Dank KI-Erkennung stellte es fest, dass mehrere Autor:innen derselben Institution innerhalb kurzer Zeit ein Dutzend Artikel mit nahezu identischer Struktur, Stil und grafischer Gestaltung einreichten. Obwohl jeder Artikel „originell“ war, wiesen die Berichte darauf hin, dass der Großteil des Inhalts typische Merkmale von Texten aufwies, wie sie ChatGPT oder Gemini erzeugen. Das Verlagshaus informierte den Redaktionsteam; nach einer internen Prüfung wurden alle Artikel zurückgezogen und die Institution unter zusätzliche Beobachtung gestellt.


Zusammengefasst bringt die Implementierung von KI-Erkennung in Anti-Plagiat-Systeme zahlreiche Vorteile. Sie stärkt die Glaubwürdigkeit des Verlags, indem sie Gutachter:innen und Leser:innen versichert, dass die veröffentlichten Inhalte authentisch sind. Sie unterstützt den Peer-Review-Prozess, da Redakteur:innen und Gutachter:innen ein zusätzliches Werkzeug zur Qualitätsbewertung an die Hand bekommen. Sie wirkt präventiv – allein das Bewusstsein darüber, dass Texte auf KI-Erstellung geprüft werden, schreckt vor unlauteren Methoden ab – und sichert die Einhaltung internationaler Datenbankanforderungen. So fordern etwa Scopus oder Web of Science zunehmend Transparenz bezüglich der Nutzung von KI.


In Zeiten, in denen KI-Technologie die Landschaft der wissenschaftlichen Kommunikation rasant verändert, müssen Verlage ebenso dynamisch auf neue Herausforderungen reagieren. KI-Erkennung in Anti-Plagiat-Systemen ist kein Luxus, sondern eine Notwendigkeit, wenn es um die Wahrung ethischer Standards, Publikationsglaubwürdigkeit und den Schutz wissenschaftlicher Leistungen geht.

Von Ewelina Kochanowska

Ursprünglich veröffentlicht in Biblioteka Analiz Nr. 645 (13/2025)

Original (Polnisch): rynek-ksiazki.pl