Wie funktionieren KI-Detektoren & warum sind sie wichtig?

KI-Detektoren, auch bekannt als KI Scanner oder Content Detektoren, sind Programme, die erkennen können, ob ein Text von einem Menschen oder einer Künstlichen Intelligenz (KI) wie ChatGPT geschrieben wurde.

In der Regel verwendet ein KI-Detektor einen Algorithmus zum maschinellen Lernen, der mit von Menschen geschriebenen und von Künstlicher Intelligenz generierten Texten trainiert wurde. Dieser erkennt Muster in der natürlichen Sprache und entscheidet, ob ein Text von einem Menschen geschrieben wurde oder nicht.

Der Text wird in einzelne Segmente zerlegt und jeder Satz mit einem Punktwert versehen. Aus diesen Punktwerten wird dann ein Gesamtprozentsatz errechnet, der angibt, wie viel Prozent des Textes nach Ansicht des Algorithmus von der KI stammen.

Um den Inhalt zu bewerten, verwenden die Algorithmen Verfahren wie die Verarbeitung natürlicher Sprache, um die Originalität des Textes zu beurteilen. Die beiden wichtigsten Messgrößen hierfür sind Komplexität und Häufigkeit.

Komplexität vs. Häufigkeit

Komplexität ist ein Maß dafür, wie unvorhersehbar oder zufällig ein Text ist. Große Sprachmodelle (LLMs) und Tools zur Erstellung von KI-Inhalten sind darauf ausgelegt, Texte mit geringer Komplexität zu erzeugen. Das bedeutet, dass sie für den Leser vorhersehbarer und verständlicher sind.

KI-Detektoren messen diese Komplexität. Ein niedriger Komplexitätswert deutet darauf hin, dass ein Text von einer automatisierten Lösung, sprich einer KI geschrieben wurde, während ein hoher Komplexitätswert darauf hindeutet, dass ein menschlicher Benutzer mehr Inkonsistenzen in der Sprachwahl aufweist.

Auf der anderen Seite bewertet die Häufigkeit die Varianz in der Satzstruktur und -länge. Texte mit einer geringen Varianz in Satzstruktur und -länge werden als wenig abwechslungsreich bezeichnet, während Texte mit einer größeren Varianz zwischen diesen beiden Variablen eine hohe Sprunghaftigkeit aufweisen.

KI-generierte Texte sind weniger sprunghaft und produzieren Sätze mit mittlerer Länge und konsistenterer Struktur. Im Gegensatz dazu verwenden menschliche Autoren Sätze mit unterschiedlicher Länge und insgesamt weniger Konsistenz.

Warum sind KI-Detektoren wichtig?

KI-Detektoren sind wichtige Tools für Unternehmen, akademische Einrichtungen und andere Organisationen, die überprüfen müssen, ob ein Text von Menschen verfasst wurde.

Beispielsweise können Hochschulen mit diesen Tools überprüfen, ob Studierende ihre Texte selbst verfasst haben. Marketingfachleute können sie verwenden, um sicherzustellen, dass gekaufte Inhalte von Grund auf neu geschrieben wurden. Für Personalverantwortliche sind sie eine gute Möglichkeit, die Authentizität von Bewerbungen zu überprüfen.

Mit der zunehmenden Verbreitung von KI werden diese Tools immer wichtiger. Allein im Bildungssektor hat Turnitin festgestellt, dass von 65 Millionen überprüften studentischen Arbeiten 3,3 % aller Arbeiten (d. h. mehr als 2 Millionen) zu 80 % oder mehr von KI geschriebenen Text enthielten.

Auch wenn es schwierig ist, die genaue Verbreitung von KI-generierten Online-Inhalten zu bestimmen, hat NewsGuard, ein auf das Aufspüren von Fehlinformationen spezialisierter Dienst, herausgefunden, dass bereits mehr als 50 Online-Nachrichtenseiten fast ausschließlich von KI-Software erstellt werden.

Die oben genannten Daten zeigen, dass KI-generierte Inhalte weit verbreitet sind. Auch wenn dies unter bestimmten Umständen nicht unbedingt schlecht ist, gibt es Bereiche wie die Bildung, in denen dies nicht außer Acht gelassen werden sollte.

Sind KI-Detektoren zuverlässig?

Die Zuverlässigkeit von KI-Detektoren hängt von einer Reihe von Faktoren ab. Obwohl einige Lösungsanbieter wie Originality KI und Turnitin eine Genauigkeit von 99 % bzw. 98 % bei der Erkennung von KI-generierten Inhalten versprechen, hängt die Zuverlässigkeit eines Detektors von einer Reihe von Faktoren ab.

Eines der größten Probleme besteht darin, dass Benutzer Lösungen wie ChatGPT anweisen können, die KI-Detektoren absichtlich zu umgehen. Darüber hinaus erstellen viele Benutzer gemischte Texte, indem sie KI nutzen, um einen Text zu erstellen und ihn dann zu bearbeiten oder umgekehrt, um eine Erkennung zu vermeiden.

Gleichzeitig sind viele Lösungen anfällig für falsch positive Ergebnisse und können den Eindruck erwecken, dass von Menschen geschriebene Artikel in Wirklichkeit von einem KI-Programm verfasst wurden. Solche falsch positiven Ergebnisse können äußerst schädlich sein, wenn eine Organisation oder Institution aufgrund dieser Einschätzung Maßnahmen gegen eine Person ergreift.

Aus diesem Grund werden KI-Detektoren bestenfalls als reines Hilfsmittel eingesetzt, um Inhalte hervorzuheben, die eine weitere Untersuchung rechtfertigen. Auf der anderen Seite werden diese Lösungen mit der Zeit immer besser, so dass ihre Genauigkeit in absehbarer Zeit weiter zunehmen wird.

Welche KI-Detektoren gibt es?

Mittlerweile gibt es eine große Auswahl an KI-Detektoren auf dem Markt. GPTZero, Copyleaks, Scribbr, Undetectable KI und Turnitin bieten alle Lösungen zur Erkennung von KI-generierten Inhalten. Die Gesamtgenauigkeit der einzelnen Lösungen ist jedoch unterschiedlich.

Zudem sind diese Tools für unterschiedliche Anwendungsfälle konzipiert. GPTZero ist beispielsweise darauf trainiert, studentische Texte und akademische Prosa zu analysieren, um Inhalte zu identifizieren, die mit ChatGPT oder GPT-4 erstellt wurden.

Andere Tools wie Copyleaks bieten einen hybriden Ansatz zur Überprüfung von Inhalten und unterstützen Bildungseinrichtungen und Unternehmen mit systemeigenen Plagiatserkennungsfunktionen.

Wie sollte auf KI-generierte Inhalte reagiert werden?

KI-generierte Inhalte sind nicht zwangsläufig per se schlecht, so dass jede Organisation und Institution selbst beurteilen muss, ob die Verwendung von KI in einem bestimmten Kontext oder in einem bestimmten Ausmaß auf Fehlverhalten oder Unehrlichkeit hindeutet.

Wenn beispielsweise ein Studierender ChatGPT verwendet, um einen Aufsatz zu schreiben und diesen als seine eigene Arbeit ausgibt, kann dies als Fehlverhalten und als Absicht, den Beurteiler in die Irre zu führen, betrachtet werden.

Im Allgemeinen wird ein KI-Erkennungswert oder ein Plagiatswert von weniger als 15% als akzeptabel eingestuft, damit die Arbeit als Originalarbeit angesehen werden kann.