Zwischen Hype und Panik?

Über den problematischen Diskurs zum Einsatz von KI in der Schule

Der Einsatz von Künstlicher Intelligenz, genauer von Large Language Modellen, in der Schule wird kontrovers diskutiert. Der Diskurs pendelt zwischen Heilsversprechen und Untergangsszenarien – oft ohne empirische Grundlage. Der Beitrag fragt, wie sich mediale Darstellung, tatsächliche Einstellungen von Lehrkräften und wissenschaftliche Evidenz zueinander verhalten.

Mediale Darstellung und tatsächliche Einstellungen von Lehrkräften zum KI-Einsatz in der Schule

In der medialen Berichterstattung über Künstliche Intelligenz im Bildungskontext wird das Thema häufig in zugespitzten, dichotomen Begriffen verhandelt: Viele Beiträge rahmen KI als entweder revolutionäre Chance oder bedrohliches Risiko und tragen so zu einer Polarisierung der öffentlichen Wahrnehmung bei (beispielhaft 3sat, 2024; Deutsches Schulportal, 2023; IT Daily, 2024). Auch Leitmedien greifen extreme Positionen auf, etwa wenn Die Welt mit dem Schulpädagogen Klaus Zierer titelt: „Im Klassenzimmer ist kein Platz für KI“ (Zierer, 2024). Solche Darstellungen schaffen Aufmerksamkeit, spiegeln aber nur begrenzt das tatsächliche Meinungsbild von Lehrerinnen und Lehrern, das deutlich weniger polarisiert ist: Die internationale OECD-Studie TALIS 2024 befragte rund 280 000 Lehrkräfte in 55 Bildungssystemen. Etwa ein Drittel nutzt KI-Tools beruflich, vor allem zur Inhaltsaufbereitung und Materialerstellung, während rund 70 % Bedenken hinsichtlich Plagiaten, Betrug und Ethik äußern (OECD, 2025; OECD, 2025 – Country Note USA). Auch in Deutschland dominieren Unsicherheit und pragmatischer Umgang. Laut dem Deutschen Schulbarometer 2025 fühlen sich 62 % der Lehrkräfte im Umgang mit KI „eher unsicher“ oder „sehr unsicher“; 55 % nutzen KI selten oder nie, während etwa ein Drittel sie regelmäßig einsetzt. Gleichzeitig sehen 57 % Chancen in individualisierter Förderung, aber über 60 % befürchten negative Effekte auf soziale Kompetenzen oder kritisches Denken (Robert Bosch Stiftung, 2025). Eine Bitkom-Befragung unter 502 Lehrkräften ergänzt dieses Bild: 51 % haben KI bereits genutzt, 28 % planen dies, und 11 % lehnen den Einsatz vollständig ab (Bitkom, 2024).

Empirie versus Bauchgefühl

Die Daten verdeutlichen: Lehrkräfte sind nicht so dichotom eingestellt, wie es mediale Darstellungen suggerieren. Die Mehrheit bewegt sich zwischen vorsichtiger Offenheit und begründeter Skepsis. Gleichwohl beruhen viele ihrer Einschätzungen weniger auf wissenschaftlicher Evidenz als auf Bauchgefühl, Erfahrung und Intuition. Forschung zur Lehrerprofessionalität zeigt seit Langem, dass pädagogische Urteile stark von implizitem Erfahrungswissen geprägt sind (Baumert & Kunter, 2013). Auch bei der Bewertung neuer Technologien orientieren sich Lehrkräfte eher an subjektiven Eindrücken, Emotionen und wahrgenommener Kontrolle als an Forschungsergebnissen (Reinhold et al., 2021). Zudem liegt bei Lehrkräften eine deutliche Tendenz vor, Forschungsergebnissen immer dann Glauben zu schenken, wenn sie ihre Weltanschauung stützt und immer dann anzuzweifeln, wenn sie dies nicht tut (Schmidt et al., 2022). Studienergebnisse werden dann nicht auf Grund ihrer methodischen Qualität und Aussagekraft bewertet, sondern danach, ob sie zu den eigenen schon bestehenden Annahmen passen oder nicht.

Vor diesem Hintergrund soll im Folgenden eine Auswahl an empirischen Forschungsbefunden zum KI-Einsatz in der Schule nicht anhand von Vorannahmen, sondern auf Basis ihrer methodischen Qualität und Aussagekraft eingeordnet werden (Eine ausführliche Besprechung der Forschungsarbeiten findet im Podcast „Kompass KI“ von Hendrik Haverkamp und Benedikt Wisniewski statt.). Ein Blick auf die aktuelle Studienlage zeigt, dass viele verbreitete Annahmen – etwa über die Wirksamkeit von KI im Unterricht, den Verlust kritischer Denkfähigkeit oder eine Zunahme von Betrug – sich empirisch differenzierter darstellen, als es öffentliche Diskurse vermuten lassen. Im Folgenden werden zentrale Fragen, die den pädagogischen Diskurs derzeit prägen, exemplarisch anhand aktueller Forschungsarbeiten beleuchtet.

Was Forschung tatsächlich zeigt (und nicht zeigt)

Können KI-Systeme als wirkungsvolle Tutoren eingesetzt werden?

Zum Thema Lernwirksamkeit von KI im Unterricht kamen Makransky, Shiwalia, Herlau und Blurton (2025) zu dem Ergebnis, dass generative Systeme zwar kurzfristig Engagement und Motivation erhöhen, bislang jedoch keine belastbaren Nachweise für nachhaltige Lernfortschritte vorliegen. Ihre Metaanalyse zeigt, dass viele Studien zwar Verbesserungen unmittelbar nach der Einführung von KI beobachten, diese Effekte aber in längeren Zeiträumen nicht stabil bleiben. Methodisch fallen vor allem eine kleine Stichprobe, ein kurzer Untersuchungszeitraum und das Fehlen einer Kontrollgruppe auf. Das Autorenteam betont, dass technologische Neuheit häufig fälschlich mit pädagogischer Wirksamkeit gleichgesetzt wird. Sicher belegt ist damit lediglich der anfängliche Aktivierungseffekt – nicht aber ein nachhaltiger Kompetenzzuwachs.

Verlieren Menschen durch den KI-Einsatz ihre Fähigkeit zum kritischen Denken?

Im Mittelpunkt der Studie von Gerlich (2025) steht die Frage, ob KI den Erwerb kritischen Denkens unterstützt oder behindert. In einem experimentellen Vergleich bearbeiteten Studierende Argumentationsaufgaben mit und ohne KI-Unterstützung. Dabei zeigten sich bei den KI-Nutzenden strukturiertere, zugleich aber oberflächlichere Argumentationsmuster. Begleitende Interviews weisen auf ein sogenanntes kognitives Offloading hin: Das Vertrauen in die Maschine führt dazu, dass die eigene Denkanstrengung reduziert wird. Zugleich kann KI als diskursiver Partner produktive Reflexionsprozesse auslösen – vorausgesetzt, sie wird bewusst didaktisch eingebettet. Die Aussagekraft bleibt durch die kurze Interventionszeit und die homogene Stichprobe eingeschränkt, macht aber deutlich, dass KI kein einseitiger Faktor ist, sondern ihr Einfluss vom Lernkontext abhängt.

Können zwischen Menschen und LLMs Synergien entstehen?

Vaccaro, Almaatouq und Malone (2024) führten eine systematische Übersicht und Metaanalyse mit 106 Studien zur Zusammenarbeit von Mensch und KI durch. Ihr zentrales Ergebnis: Mensch-KI-Teams schneiden im Durchschnitt schlechter ab als der jeweils bessere Einzelakteur (Effektstärke = −0,23). Nur bei der sogenannten Human Augmentation – also wenn Menschen mit KI-Unterstützung arbeiten – zeigt sich ein deutlich positiver Effekt (Effektstärke = +0,64). KI kann den Menschen also wirksam unterstützen, führt aber selten zu einer echten Synergie, bei der die Kombination beide Einzelleistungen übertrifft.

Die Effekte hängen stark von der Aufgabenart ab. Bei kreativen Tätigkeiten zeigen sich leichte Vorteile, während sich die Leistung bei Entscheidungsaufgaben oft verschlechtert. Menschen profitieren vor allem dann, wenn sie selbst der leistungsfähigere Part sind, da sie besser einschätzen können, wann sie der KI vertrauen sollten.

Insgesamt zeigen die Ergebnisse, dass echte Synergien zwischen Mensch und KI bisher selten sind; der eigentliche Nutzen liegt in der gezielten Unterstützung menschlicher Fähigkeiten.

Kann KI kreative Produkte schaffen?

Die Untersuchung von Ghods, Liu, Labrou, MacDonald, Menon und Wu (Preprint) widmet sich der Frage, ob KI-generierte Texte zu stilistischer Gleichförmigkeit führen. Auf Basis von über tausend Schreibproben von Studierenden und Sprachmodellen zeigen ihre Analysen, dass KI-Texte keineswegs homogener sind, sondern teilweise mit Menschen vergleichbare sprachliche Vielfalt aufweisen. Damit widerlegt die Studie die verbreitete Annahme, generative Modelle produzierten automatisch monotone oder formelhafte Texte. Methodisch überzeugt die große Datengrundlage, jedoch wird der Kreativitätsbegriff ungenau und inkonsistent verwendet: Gemessen wird nur sprachliche Varianz, nicht Originalität oder ästhetischer Wert. Entsprechend lässt sich sprachliche Vielfalt empirisch belegen, kreative Qualität hingegen nicht.

Führt KI zu einer allgemeinen Verdummung?

Die EEG-Studie von Kosmyna, Levy, Sriram, Yang, Hilliard und Picard (2025) befasst sich mit den neuronalen Auswirkungen des Schreibens mit ChatGPT. Dabei zeigte sich bei 54 Versuchspersonen eine geringere präfrontale Aktivierung während der KI-Nutzung, was auf eine reduzierte kognitive Belastung hinweist. Diese kurzfristige Entlastung wird von den Forschern als mögliche „kognitive Schuld“ interpretiert – also als Verschiebung mentaler Anstrengung in spätere Lernphasen. Hinweise auf langfristige Beeinträchtigungen ergaben sich jedoch nicht. Aufgrund der kleinen Stichprobe und der kurzen Beobachtungsdauer ist die Studie explorativ zu bewerten: Sie zeigt eine temporäre Veränderung kognitiver Aktivierung, keine bleibende Leistungsabnahme.

Schummeln Schülerinnen und Schüler mehr, seit sie KI nutzen können?

Die Untersuchung von Lee, Pope, Miles und Zárate (2024) nimmt das Thema akademische Integrität in den Blick. In einer Befragung von über 1.000 Schülerinnen und Schülern wurde erhoben, ob und wie sich Täuschungsverhalten seit der Einführung generativer KI verändert hat. Die Ergebnisse zeigen stabile Betrugsraten, jedoch eine deutliche Verschiebung der Strategien: KI wird seltener zur direkten Täuschung, häufiger zur Strukturierung, Verbesserung oder Ideenfindung genutzt. Damit verändert sich der Charakter der Nutzung von KI, ohne dass ein moralischer Verfall erkennbar wäre. Da die Studie auf Selbstauskünften basiert, bleiben Verzerrungen durch soziale Erwünschtheit möglich. Insgesamt deuten die Ergebnisse auf eine funktionale Anpassung, nicht auf eine Zunahme unethischen Verhaltens hin.

Wie schneidet KI-Feedback im Vergleich zu menschlichem Feedback ab?

Die Metaanalyse von Kaliisa, Misiejuk, López-Pernas und Saqr (2025) integriert 41 Studien mit rund 4.800 Lernenden und vergleicht KI- mit menschlichem Feedback hinsichtlich Lernleistung, Wahrnehmung und motivationaler Effekte. Es zeigen sich keine signifikanten Unterschiede in der Lernleistung. Auch in der Feedbackwahrnehmung (z. B. Klarheit, Nützlichkeit) ergeben sich keine konsistenten Differenzen. Für Motivation ist die Befundlage zu heterogen, um eindeutige Schlüsse zu ziehen. Erste Hinweise sprechen für mögliche Vorteile hybrider Modelle (KI + Mensch). Methodisch ist die Metaanalyse solide, jedoch sind viele Primärstudien auf formale Aspekte des Schreibens beschränkt und nutzen teils ältere, regelbasierte Systeme. Insgesamt sprechen die Ergebnisse weniger für Gleichwertigkeit als für unterschiedliche Profile von KI- und menschlichem Feedback.

Fördert KI die sogenannten 4K-Kompetenzen?

Die Metaanalyse von Tian und Zheng (2025) integriert 39 experimentelle und quasi-experimentelle Studien zur Wirkung von KI auf Kreativität, Kollaboration, Kommunikation und kritisches Denken. Insgesamt zeigt sich ein moderater positiver Gesamteffekt auf das, was als „4K“ bezeichnet wird.

Problematisch ist jedoch weniger die statistische Auswertung als der Untersuchungsgegenstand selbst. Die 4K werden in den Primärstudien äußerst unterschiedlich operationalisiert: Mal geht es um Anzahl von Ideen, mal um Selbstauskünfte, mal um beobachtete Verhaltensweisen. Häufig werden Tätigkeiten (z. B. Präsentieren oder Gruppenarbeit) mit Kompetenzen gleichgesetzt. Dadurch entsteht eine hohe Heterogenität, die die Aussagekraft des Gesamteffekts stark relativiert. Die Befunde sprechen daher eher für punktuelle Effekte einzelner KI-Anwendungen als für einen belastbaren Nachweis, dass klar definierte „4K“ systematisch gefördert werden.

Dies entspricht einem grundsätzlichen Problem weiter Teile der 4K-Forschung. Die Konstrukte sind unscharf definiert und wenig valide operationalisiert; häufig werden breite Merkmalsbündel statt abgrenzbarer Kompetenzen untersucht. Zudem prüfen viele Studien nicht die Tragfähigkeit der Konstrukte selbst, sondern setzen sie voraus. Die Forschung bestätigt damit oft ihre Ausgangsannahmen, statt sie empirisch zu testen.

Verändert die KI-Kompetent von Schülerinnen und Schülern deren Risikowahrnehmung?

Die Studie von Heilala, Sikström, Setälä und Kärkkäinen (2025) untersucht anhand einer Stichprobe von 163 finnischen Oberstufenschülerinnen und -schülern, wie selbst eingeschätzte KI-Kompetenz mit der Struktur der KI-bezogenen Risikowahrnehmung zusammenhängt. Unterschieden werden systemische Risiken (z. B. Bias, Ungenauigkeit), institutionelle Risiken (z. B. Cheating, unklare Regeln) und persönliche Lernrisiken (z. B. Verlust von Kreativität oder kritischem Denken). Die Ergebnisse zeigen: Schülerinnen und Schüler mit niedriger selbst eingeschätzter KI-Kompetenz berichten insgesamt mehr Risiken, wobei persönliche Lernrisiken im Zentrum ihres Wahrnehmungsnetzwerks stehen. Bei höherer Kompetenz verschiebt sich der Fokus auf systemische und institutionelle Aspekte; Risiken werden selektiver und strukturell gerahmt. Aufgrund des querschnittlichen Designs belegt die Studie nicht, dass KI-Kompetenz Risikowahrnehmung verändert, zeigt jedoch konsistent, dass unterschiedliche Kompetenzniveaus mit unterschiedlichen Strukturen der Risikozuschreibung einhergehen.

Wahrheit versus Weltanschauung

Die bisher betrachteten Studien liefern wertvolle, aber nicht immer widerspruchsfreie Erkenntnisse. In vielen Fällen bestätigen sie möglicherweise das Bauchgefühl vieler Lehrerinnen und Lehrer nicht. Zugleich wirft der Blick auf die Forschungslandschaft selbst grundlegende Fragen nach der Qualität und den epistemischen Standards wissenschaftlicher Arbeit auf. Genauso wenig wie ein reines Bauchgefühl bieten verkürzt und verzerrt wiedergegebene Forschungsergebnisse in der Debatte über den Einsatz von KI in der Schule eine verlässliche Grundlage. Der Verweis auf „die Forschung“ ist nicht immer eine Garantie für wissenschaftliche Erkenntnis. Viele Studien, die aktuell zum Thema „KI-Einsatz in der Schule“ veröffentlicht werden, wirken zum Teil wie mit heißer Nadel gestrickt und offenbaren eklatante methodische Mängel. Die Notwendigkeit, Ergebnisse schnell zu publizieren, weil sie ansonsten auf Grund der rasanten Entwicklungen im Bereich der künstlichen Intelligenz schon wieder veraltet sein könnten, führt offensichtlich zu einer Senkung der Standards in der Qualitätskontrolle. Teile der Erziehungswissenschaften, die sich zum Thema KI äußern, produzieren zudem vorwiegend normativ argumentierende Beiträge, die nur in geringem Maße auf systematische Forschung zurückgreifen. Wenn Personen, die formal den Status von Wissenschaftlerinnen und Wissenschaftlern innehaben, zum Diskurs in erster Linie Aussagen beitragen, die mit „Wir müssen…“, „Lehrkräfte sollen…“ oder „Es braucht…“ beginnen, verlassen sie die Ebene des Erkenntnisgewinns und verwischen mitunter die Grenze zwischen Forschung und weltanschaulicher Positionierung. Wissenschaft verfehlt aber ihren Auftrag, wenn sie nicht auf Erkenntnisgewinn, Überprüfbarkeit und Selbstkorrektur zielt, sondern auf die Vermittlung und Legitimation von Überzeugungen oder die Anpassung an das vermeintlich Zeitgemäße. Wissenschaft, die darauf zielt, bereits feststehende Vorannahmen zu bestätigen, statt den Versuch zu unternehmen, diese zu prüfen und gegebenenfalls zu widerlegen, ist keine Wissenschaft. Die Tendenz, wissenschaftliche Argumentation durch normative Selbstvergewisserung zu ersetzen, wird durch aktuelle technologische Entwicklungen noch verstärkt: Systeme wie ChatGPT erzeugen Antworten, die aus statistischen Wahrscheinlichkeiten berechnet werden und deshalb dazu neigen, bestehende Denkmuster zu reproduzieren. Wer eine bestimmte Annahme bestätigt sehen will, findet in der Interaktion mit KI leicht die passende Antwort – ein digitaler confirmation bias. Weil die Ergebnisse plausibel und sprachlich überzeugend erscheinen, verstärken sie das Vertrauen in vorgefasste Überzeugungen, anstatt hinterfragt zu werden (vgl. Schmidt et al., 2022). Die beschriebenen Dynamiken berühren letztlich die sehr grundsätzliche Frage, wie die pädagogische Praxis mit dem Anspruch umgehen kann, Schülerinnen und Schülern kritisches Denken (in Bezug auf KI und allgemein) zu vermitteln. Es ist plausibel, dass eine wesentliche Voraussetzung für die Förderung von kritischem Denken die ist, kritisches Denken selbst anzuwenden. Dies bedeutet, zwischen überprüfbarem Wissen und subjektivem Bauchgefühl zu unterscheiden und beide in ein reflektiertes Verhältnis zu setzen. Es bedeutet auch, wissenschaftliche Befunde nicht selektiv zu nutzen, sondern sie zu prüfen, zu kontextualisieren und ergebnisoffen zu interpretieren. Kritisches Denken verlangt, dass Forschende wie Lehrkräfte gleichermaßen bereit sind, eigene Gewissheiten infrage zu stellen. Der Bereich „Einsatz künstlicher Intelligenz in der Schule“ verdeutlicht, wie schwierig es bislang bleibt, diesem Anspruch gerecht zu werden.

Literatur

3sat. (2024, 9. Juli). Chance oder Risiko – Wie wird KI die Schule verändern?

https://www.3sat.de/wissen/nano/240709-doku-chance-oder-risiko-wie-wird-ki-die-schule-veraendern-nano-100.html

Baumert, J., & Kunter, M. (2013). The COACTIV model of teachers’ professional competence. In M. Kunter, J. Baumert, W. Blum, U. Klusmann, S. Krauss, & M. Neubrand (Eds.), Cognitive activation in the mathematics classroom and professional competence of teachers (S. 25–48). Heidelberg: Springer.

Bitkom. (2024, 9. Oktober). Bereits jede zweite Lehrkraft hat KI für die Schule genutzt [Presseinformation].

https://www.bitkom.org/Presse/Presseinformation/jede-zweite-Lehrkraft-KI-Schule-genutzt

Deutsches Schulportal. (2023, 20. Februar). ChatGPT in der Schule – Wer hat’s geschrieben?

https://deutsches-schulportal.de/unterricht/chatgpt-in-der-schule-wer-hats-geschrieben/

Gerlich, M. (2025). AI Tools in Society: Impacts on Cognitive Offloading and the Future of Critical Thinking. Societies 2025, 15, 6.

Ghods, K., Liu, P., Labrou, K., MacDonald, K., Menon, A., & Wu, A. Evidence Against LLM Homogenization in Creative Writing. [Pre-Print]

Heilala, V., Sikström, P., Setälä, M., & Kärkkäinen, T. (2025). Artificial Intelligence Competence of K-12 Students Shapes Their AI Risk Perception: A Co-occurrence Network Analysis. arXiv preprint arXiv:2512.04115.

IT Daily. (2024, 7. März). KI im Klassenzimmer: Chancen und neue Risiken.

https://www.it-daily.net/it-sicherheit/cloud-security/ki-klassenzimmer-chancen-risiken

Kaliisa, R., Misiejuk, K., López-Pernas, S., & Saqr, M. (2025). How does artificial intelligence compare to human feedback? A meta-analysis of performance, feedback perception, and learning dispositions. Educational Psychology, 1-32.

Kosmyna, N., Levy, N., Sriram, A., Yang, C., Hilliard, C., & Picard, R. W. (2025). Your brain on ChatGPT: Accumulation of cognitive debt when using an AI assistant for essay writing task [Preprint]

Lee, V. R., Pope, D., Miles, S., & Zárate, R. C. (2024). Cheating in the age of generative AI: A high school survey study of cheating behaviors before and after the release of ChatGPT. Computers and Education: Artificial Intelligence, 7, 100253.

Makransky, G., Shiwalia, B. M., Herlau, T., & Blurton, S. (2025). Beyond the “Wow” Factor: Using Generative AI for Increasing Generative Sense-Making. Educational Psychology Review, 37(3), 60.

OECD. (2025). Results from TALIS 2024: The State of Teaching. OECD Publishing.

Reinhold, F., Holzberger, D., Seidel, T., & Reiss, K. (2021). Considering teachers’ beliefs, motivation, and emotions: Investigating the links to instructional practices in mathematics classrooms. Frontiers in Education, 6, 723869.

Robert Bosch Stiftung. (2025). Deutsches Schulbarometer: Befragung Lehrkräfte 2025. https://www.bosch-stiftung.de/sites/default/files/documents/2025-06/Deutsches%20Schulbarometer_Lehrkraefte_2025.pdf

Schmidt, K., Rosman, T., Cramer, C., Besa, K.-S., & Merk, S. (2022). Teachers trust educational science – Especially if it confirms their beliefs.Frontiers in Education, 7, 976556. https://doi.org/10.3389/feduc.2022.976556

Tian, Q., & Zheng, X. (2025). The impact of artificial intelligence on students’ 4C skills: A meta-analysis. Educational Research Review, 100728.

Vaccaro, M., Almaatouq, A., & Malone, T. (2024). When combinations of humans and AI are useful: A systematic review and meta-analysis. Nature Human Behaviour, 8(12), 2293-2303.

Zierer, K. (2024, Mai). Im Klassenzimmer ist kein Platz für KI.Die Welt.

https://www.welt.de/article68c0ea526234bf3bcff96bf2

Über den Autor

Benedikt Wisniewski ist promovierter Schulpsychologe, Supervisor und Coach. Er war lange als Lehrer und in der Lehrerbildung tätig und forschte zum Thema Feedback an der Universität Augsburg. Als Fachbuchautor und in seinem Podcast „Psychologie fürs Klassenzimmer“ beschäftigt er sich mit psychologischen Themen im Kontext Schule. Sein Buch „Weniger macht Schule: Wie De-Implementierung schulische Freiräume schafft“ – zusammen mit Co-Autorin Barbara Gottschling verfasst – ist im März 2025 im Kohlhammer Verlag erschienen.