Künstliche Intelligenz verändert die Art, wie Schülerinnen und Schüler lernen und arbeiten, rasant. Das stellt die Schulen vor eine zentrale Frage: Wie können Leistungen fair und zukunftsorientiert bewertet werden, wenn Hausarbeiten, Referate und selbst Abschlussarbeiten mit wenigen Klicks von einer KI erstellt werden können?
Die Lehrer und Autoren Joscha Falck und Manuel Flick setzen sich intensiv mit dieser Frage auseinander. Anstatt KI als Bedrohung für traditionelle Leistungsnachweise zu sehen, begreifen sie die Technologie als Chance für eine längst überfällige Weiterentwicklung der Prüfungskultur. Anlass für dieses Interview ist ihr jüngst veröffentlichter Leitfaden “Prüfen & Bewerten”, welcher zeitgleich auf Joschas und Manuels Blog erschienen ist. Der Leitfaden gibt Lehrkräften und Kollegien einen kompakten Überblick und mutmachende Impulse für die Praxis.
Lieber Joscha, lieber Manuel, wie sah eure letzte Klassenarbeit mit KI-Einsatz aus?
Flick: In einer Klassenarbeit zum Thema Fake News mussten meine Schüler:innen vor ein paar Wochen ein KI-generiertes Bild analysieren. Es ging darum, auf Grundlage vorher erarbeiteter Prüfkriterien zu ermitteln, wodurch sich solche Bilder von echten Fotos unterscheiden lassen. Hier ging es natürlich vor allem um das Lernen über KI – der aktive KI-Einsatz spielt in meinem Unterricht aktuell eher in bewerteten Projekten eine Rolle. Meine E-Commerce-Klassen erstellen beispielsweise gerade einen fiktiven Online-Shop und dokumentieren den gesamten Prozess in einem Portfolio. KI wird dabei sowohl zur Gestaltung des Shops als auch zur Unterstützung bei der Recherche und beim Schreiben eingesetzt – angeleitet und im Rahmen vorher festgelegter Regeln.
Falck: Bei mir ist es ähnlich. Meine Schüler:innen haben KI-Tools zuletzt im Rahmen einer Leseportfolio-Einheit im Deutschunterricht genutzt. Teil der Portfolio-Arbeit waren Schreibaufgaben zu unserer Lektüre, die in FelloFish angelegt waren und mit KI-Feedback-Unterstützung bearbeitet werden konnten/mussten. Darüber hinaus war es nach Absprache und mit entsprechender Dokumentation möglich, KI-Chatbots zur Schreibunterstützung einzusetzen. Einige Schüler:innen nutzten zur Überarbeitung ihrer Textpassagen auch DeeplWrite.
Warum haltet ihr eine Veränderung der Prüfungskultur unter den Bedingungen von KI für notwendig?
Flick: Die Debatte ist nicht neu, eine Veränderung der Prüfungskultur wird durch KI jetzt aber umso dringlicher. Einige etablierte Prüfungsformate funktionieren unter den neuen Bedingungen schlicht nicht mehr. Die Lösung ist jetzt aber nicht, sich auf schriftliche Klausuren unter Aufsicht zu konzentrieren, sondern liegt darin, Prüfungsformate neu zu denken und zukunftsfähig zu gestalten.
Das steht im Einklang mit den Empfehlungen der Kultusministerkonferenz (KMK), die in ihrer Handlungsempfehlung vom Oktober 2024 eine Weiterentwicklung oder Abschaffung von Prüfungsformaten fordern, bei denen die erbrachte Leistung nicht eindeutig einer Schülerin oder einem Schüler zugeordnet werden kann. Neben der Überprüfung von fachlichen und überfachlichen Kompetenzen rückt zudem KI-Kompetenz als weitere Prüfungsdimension in den Fokus, die künftig in der Aufgaben- und Prüfungskultur stärker berücksichtigt werden muss.
Falck: Hinzu kommt, dass generative KI Lerngewohnheiten unserer Schüler:innen in und außerhalb der Schule und sich durch neue didaktische Möglichkeiten auch die Aufgabenkultur im Unterricht verändert. Wenn sich hierbei der Fokus auf andere/neue Kompetenzen verschiebt, müssen sich diese auch in Prüfungssituationen abbilden. Oder anders: Wenn ein Lernen über, mit und durch KI Teil des Unterrichts ist, braucht es in Prüfungen auch ein Geprüft werden über und mit KI.
Ihr habt einen KI-Leitfaden für eine neue veränderte Aufgaben- und Prüfungskultur herausgegeben. Was steht drin?
Falck: Im Prinzip haben wir versucht, die zentralen Aspekte der neuen Herausforderungen einer KI-integrierenden Prüfungskultur auf zwei Seiten zu bündeln. Dabei geht es um grundsätzliche Leitgedanken, das Spektrum neuer Prüfungsformate und um die Aufschlüsselung nach Ansatzpunkten in Präsenzformaten und in Formaten außerhalb des Präsenzunterrichts. Wir wollten damit einen kompakten Überblick schaffen, mit dem Lehrkräfte und Kollegien einen guten Überblick bekommen. Gleichzeitig wollen wir Mut machen, den Veränderungen reflektiert entgegenzutreten und selbst neue Formate zu erproben.
Flick: Neben den Leitgedanken haben wir konkrete Gestaltungsaspekte formuliert, die bei der Entwicklung KI-generierter Prüfungsformate berücksichtigt werden sollten und eine Unterstützung bei der praktischen Umsetzung bieten. Dabei stellen sich zentrale Fragen: Findet die Prüfung unter Aufsicht oder außerhalb des Unterrichts statt? Wie stark soll KI den Inhalt der Prüfung prägen und aktiv eingesetzt werden? Steht der Prozess oder das Produkt im Fokus der Bewertung? In welchem Umfang soll der KI-Einsatz reflektiert werden?
Daraus ergibt sich ein Spektrum von Prüfungsformaten, die jeweils ein unterschiedliches Niveau der KI-Integration aufweisen: Prüfungen ohne aktiven KI-Einsatz, Formate mit punktueller KI-Nutzung und Formate mit vollumfänglichem KI-Einsatz. Im abschließenden Teil des Leitfadens formulieren wir dann noch erste Ansätze und Beispiele, wie Aufgaben KI-integrativ und KI-resilienter gestaltet werden können, ergänzt durch KI-bezogene Reflexionsschwerpunkte, die in die Prüfung einbezogen werden können.
Für den Start: Wie können Lehrkräfte anfangen, Prüfungsformate mit vollumfänglichem KI-Einsatz in der eigenen Schule zu etablieren? Worauf sollten sie achten? Gibt es Fallstricke? Was sind eure Empfehlungen?
Flick: Viele Lehrkräfte sehen sich hier mit ganz ähnlichen Herausforderungen konfrontiert. Es ist also sinnvoll, sich nicht allein auf den Weg zu machen, sondern gemeinsam erste Schritte zu gehen. Zunächst braucht es einen verlässlichen Rahmen für den Umgang mit KI im Unterricht und in Prüfungen, der sowohl für Schüler:innen als auch für Lehrkräfte Klarheit schafft. Ein guter Startpunkt kann neben unserem Leitfaden Prüfen und Bewerten meine AI Policy mit Anstößen für KI-Dokumentation und KI-Reflexion sein.
Im Anschluss braucht es Mut und Kreativität, um bestehende Aufgaben- und Prüfungsformate gezielt weiterzuentwickeln und KI-integrierend zu gestalten. Hierbei gilt es aus meiner Sicht, auch die Grenzen bei Prüfungsvorgaben auszuloten. Bei Haus- oder Facharbeiten stellt sich etwa die Frage, inwieweit KI-Reflexion zum Bewertungskriterium gemacht werden kann. Können Haus- oder Facharbeiten zudem durch ein angepasstes Aufgabendesign KI-resilienter gestaltet werden, sodass diese nicht einfach durch KI erstellt werden können? Ist ein mündliches Fachgespräch als ergänzendes Prüfungselement denkbar? Wie lässt sich eine Prozesskomponente stärker bei der Bewertung berücksichtigen?
Falck: Ich empfehle, sich erstmal ein oder zwei Themenbereiche auszuwählen, bei deren Bearbeitung KI eine Rolle spielen soll. Der Ausgangspunkt ist also nicht die Prüfung, sondern das Lernen im Unterricht bzw. die Frage, welche Kompetenzen wie erworben werden sollen. Je nachdem, wie LLM-Chatbots, Bild-KI-Tools und/oder Feedback-Ansätze hier eingesetzt werden, lässt sich genau das teilweise oder komplett in der Prüfungssituation abbilden. Für den Anfang ist es dabei sicher einfacher, den KI-Einsatz punktuell zu planen (z.B. dass ein Chatbot bei einer Aufgabe unter bestimmten Bedingungen eingesetzt werden darf).
Ihr sprecht euch dafür aus, dass auch klassische Prüfungsformate weiterhin eine Daseinsberechtigung haben und begründet das vor allem mit der Überprüfung der Basiskompetenzen. Gibt es noch weitere gute Gründe für das Festhalten an Prüfungsformaten ohne (aktiven) KI-Einsatz und können Basiskompetenzen nicht auch im Umgang mit KI geprüft werden?
Flick: Ich sehe es als Teil meiner Verantwortung, meine Schüler:innen auf ihre Abschlussprüfung am Ende Ihrer Berufsausbildung vorzubereiten – und das bedeutet aktuell noch, auch klassische Prüfungsformate im Unterricht zu berücksichtigen.
Ich bin hier recht pragmatisch und setze über den gesamten Zeitraum der Ausbildung auf ergänzende schriftliche Prüfungen, die unter Aufsicht und ohne Hilfsmitteleinsatz stattfinden.So haben die Schüler:innen die Möglichkeit, ihre Kenntnisse auch in Situationen unter Beweis zu stellen, die den Bedingungen von Abschlussprüfungen nahekommen. Diese Formate ergänzen für mich alternative Prüfungsformate mit punktuellem und vollumfänglichem KI-Einsatz, bei denen die berufliche Handlungsorientierung noch stärker im Fokus steht.
Mir geht es hier selbstverständlich nicht darum, bestehende Strukturen zu erhalten.Für mich zeigt sich in diesem Zuge jedoch noch deutlicher, dass auch Abschlussprüfungen weitergedacht werden müssen. Da muss Bewegung rein!
Falck: Abgesehen von der Orientierung an Abschlussprüfungen (das ist bei mir ähnlich), bleibt die Frage nach der Erarbeitung der Inhalte zentral. Prüfungen ohne KI-Einsatz haben dann ihre Berechtigung, wenn es relevant war/ist, Kompetenzen ohne KI-Einsatz zu erwerben bzw. es aus pädagogischer Sicht wichtig war/ist, bewusst auf KI zu verzichten, um Lernenden nicht die Möglichkeit des Abkürzens einzuräumen. Ich sehe Schule hier auch in der Verantwortung, ein tieferes Eindringen in Inhalte bewusst ohne Hilfsmittel anzuleiten. Dabei geht es auch um Muße, Konzentration, um Anstrengung und Ausdauer (z.B. beim Lesen eines Buches mit anschließender Auseinandersetzung mit einer Figur).
Als eine KI-resiliente Lösung empfiehlt ihr die Einbeziehung des Arbeits- und Lernprozesses in die Bewertung. Kann die KI diese Prozessdokumentation nicht ebenfalls komplett übernehmen?
Flick: Ja und nein. Wenn die Bewertung ausschließlich auf einer schriftlichen Dokumentation basiert, die außerhalb des Unterrichts erstellt wurde, besteht die Gefahr. Nach meiner Erfahrung zeigt sich jedoch spätestens in einem ergänzenden Fachgespräch durch gezielte Rückfragen, ob eine Dokumentation bzw. Reflexion tatsächlich stattgefunden hat oder vollständig an KI ausgelagert wurde.
In der Vergangenheit habe ich zum Beispiel auch schon einen Evaluationsbericht zu einem Videoprojekt im Unterricht schreiben lassen. Die Schüler:innen mussten dabei Ihren Arbeitsprozess reflektieren und durften eine Seite mit handgeschriebenen Stichpunkten mitbringen. Der Bericht selbst wurde also unter Aufsicht und innerhalb eines festen Zeitfensters verfasst. Das hat gut funktioniert und klappt auch in Zeiten von KI hervorragend.
Falck: Ich habe Dokumentations- und Reflexionsaufgaben zum KI-Einsatz bislang immer in Präsenz und unter Aufsicht erstellen lassen – teilweise mit offenen Fragen, teilweise auch über einen digitalen Fragebogen oder in einem Reflexionsgespräch. Daher gab es da bislang keine Probleme.
Gretchen-Frage: Wie steht ihr zu Korrekturen mit und durch KI? Legitime Zeitersparnis oder Zementierung der traditionellen Prüfungskultur?
Flick: Ich nehme in meinen Veranstaltungen immer wieder wahr, dass hier große Hoffnungen liegen. In der Praxis zeigen sich aber aktuell noch Hürden, angefangen bei der Fehleranfälligkeit der Korrektur-Tools bis zum Datenschutz. Klar ist auch, dass die Bewertungshoheit weiter bei Lehrkräften liegen muss.
Entlastungspotentiale bei Korrekturen nehme ich in der momentanen Praxis eher an anderer Stelle wahr. Es kann ja auch schon entlastend sein, wenn KI bei der Erstellung von Musterlösungen oder Erwartungshorizonten indirekt unterstützt. Auch KI-basiertes Feedback im Schreibprozess kann potenziell entlastend wirken, wenn Schüler:innen ihre Texte damit vorab überarbeiten – bevor sie zur finalen Korrektur an die Lehrkraft gehen.
Ich sehe in diesem Feld dennoch Potenzial und ich bin sehr gespannt, welche Entwicklungen sich hier in den nächsten Jahren ergeben. Auf den ersten Blick mag das nach Zementierung einer traditionellen Prüfungskultur klingen, vielleicht entstehen aber gerade durch die Korrektur-Unterstützung die notwendigen Freiräume, um komplexere, mehrdimensionale Formate zu etablieren, die auch korrekturintensiver sein können.
Falck: Die Hoffnungen, die Manuel wahrnimmt und dir auch mir gegenüber geäußert werden, kommen von einem großen Bedürfnis nach Entlastung. Gerade Sprachlehrkräfte verbringen immens viel Zeit mit Korrekturen, wohl wissend, dass ein Großteil dieser Arbeit von Schüler:innen kaum zur Kenntnis genommen wird und auch kaum lernförderliche Effekte hat. Da mich Korrekturtools bislang aber auch noch nicht überzeugt haben, nutze ich diese Fragen in meinen Veranstaltungen immer für eine Verschiebung der Perspektive: Wo lassen sich Korrekturen einsparen? Wo lassen sich Formate derart verändern, dass Feedback und Lernbegleitung wichtiger werden als eine abschließende Bewertung? Und wo können wir KI einsetzen, um uns hierbei zu entlasten? Zusätzlich zu Manuels Beispielen kann KI Lehrkräfte zum Beispiel auch beim Formulieren von Rückmeldungen unterstützen. Werden diese dann noch zu einem früheren Zeitpunkt im Lernprozess und nicht rückblickend platziert, haben auch die Schüler:innen deutlich mehr davon.
Über die Gesprächspartner
Joscha Falck ist Mittelschullehrer und Schulentwicklungsmoderator in Mittelfranken. Darüber hinaus ist er als Fortbildner, Referent und Autor tätig. Kontakt: www.joschafalck.de

Manuel Flick ist Lehrkraft an einer berufsbildenden Schule aus Berlin. Als Fortbildner, Referent und Blogger widmet er sich schwerpunktmäßig dem Thema Künstliche Intelligenz im Schul- und Unterrichtskontext. Weitere Infos und Kontakt: manuelflick.de
