KI schneidet bei Uni-Prüfungen besser ab

KI schlägt Studierende: ChatGPT trickst Universitätsprüfer aus

Eine aktuelle Studie der University of Reading hat aufgedeckt, dass 94 Prozent der von der KI ChatGPT verfassten Antworten in Uni-Prüfungen von den Korrektoren nicht als solche erkannt wurden. Erstaunlicherweise erzielten diese KI-generierten Arbeiten laut New Scientist tendenziell höhere Noten als die Einsendungen der echten Studierenden. Diese Ergebnisse werfen wichtige Fragen zur Integrität und Zukunft der akademischen Bewertung auf.

Universitätsprüfer hatten Schwierigkeiten, von Künstlicher Intelligenz (KI) generierte Antworten in realen Tests zu erkennen. Dies ergab eine Untersuchung, die von Peter Scarfe und seinem Team an der University of Reading in Großbritannien durchgeführt wurde. ChatGPT habe für eine Vielzahl von Fragen in den Uni-Prüfungen Antworten generiert, die größtenteils unentdeckt geblieben seien und tendenziell bessere Noten erzielt hätten als die Arbeiten der echten Studierenden.

In der Studie wurden 63 Prüfungsfragen aus fünf Modulen des Psychologie-Bachelorstudiengangs der Universität Reading verwendet. Diese Fragen sind von ChatGPT beantwortet und dann zusammen mit den Arbeiten echter Studierender eingereicht worden. Insgesamt machten die von der KI generierten Antworten etwa fünf Prozent der bewerteten Prüfungsarbeiten aus, ohne dass die Prüfer über den Einsatz der KI Bescheid wussten. Die Namen der fiktiven Studierenden hat ebenfalls ChatGPT erstellt.

KI-Antworten überwiegend unentdeckt

Die Prüfungsfragen umfassten sowohl kurze Antworten als auch längere Essays. Die Eingabeaufforderungen an ChatGPT haben jeweils mit den Worten „Unter Einbeziehung von Verweisen auf die wissenschaftliche Literatur, jedoch ohne ein separates Literaturverzeichnis“ begonnen und sind dann durch die Prüfungsfrage ergänzt worden.

Insgesamt sind nur sechs Prozent der KI-generierten Antworten als potenziell nicht von Studierenden stammend markiert worden. In einigen Modulen ist keine einzige KI-generierte Arbeit als verdächtig eingestuft worden.

„Im Durchschnitt hätten die KI-Antworten vin ChatGPT höhere Noten erzielt als die Antworten unserer echten Studierenden in den Uni-Prüfungen.“

Peter Scarfe

Es gab jedoch Unterschiede zwischen den Modulen.

Ein weiterer interessanter Punkt ist, dass die KI bei abstrakterem Denken und der Integration von Informationen noch Schwächen aufweist. Dennoch wurden die KI-Arbeiten mit einer 83,4-prozentigen Wahrscheinlichkeit besser bewertet als die der Studierenden.

Breite Auswirkungen auf das Bildungssystem

Die Forscher behaupten, dass ihre Arbeit die größte und robusteste Studie dieser Art bisher sei. Obwohl die Studie nur Arbeiten des Psychologiestudiengangs der University of Reading untersucht hat, glaubt Scarfe, dass die Ergebnisse auf den gesamten akademischen Sektor zutreffen. „Ich sehe keinen Grund, warum andere Fachbereiche nicht mit den gleichen Problemen konfrontiert sein sollten“, sagte er.

Thomas Lancaster vom Imperial College London bezeichnete die Ergebnisse als erwartbar. „Wir wissen, dass generative KI vernünftig klingende Antworten auf einfache, begrenzte Textfragen erzeugen kann“, sagte Lancaster. Er wies darauf hin, dass unbeaufsichtigte Prüfungen mit kurzen Antworten immer anfällig für Betrug gewesen seien. Der Arbeitsaufwand für die Prüfer, die die Arbeiten bewerten sollen, verschärfe das Problem zusätzlich. „Zeitlich unter Druck stehende Prüfer von Kurzantwortfragen werden höchst unwahrscheinlich KI-Missbrauchsfälle ohne triftigen Grund melden“, sagte Lancaster.

Anpassung des Bildungssystems notwendig

Scarfe betonte, dass es nahezu unmöglich sei, das Problem an der Wurzel zu bekämpfen. Stattdessen müsse der Sektor überdenken, was und wie geprüft werde. „Ich denke, es wird notwendig sein, dass der gesamte Sektor anerkennt, dass wir KI in die Prüfungen, die wir unseren Studierenden abnehmen, integrieren müssen“, sagte er.

Diese Ergebnisse sind eine deutliche Warnung für Bildungseinrichtungen weltweit. Sie alle müssen die Formate von Uni-Prüfungen und Bewertungsmethoden überdenken, um der zunehmenden Nutzung von KI wie ChatGPT gerecht zu werden. Die aktuelle Studie hat gezeigt, dass die akademische Welt vor einer bedeutenden Herausforderung steht, die man dringend angehen muss.

Gleich weiterlesen: 

Folge ZEITjUNG auf FacebookTikTok und Instagram

Bild: Vecteezy; CC0-Lizenz