Aktualisiert · 16. Mai 2026 · 13 Min. Lesezeit

Prompt-Handwerk

Mehr als generische Prompts: Wie Sie KI-Feedback zu Ihrem Goethe-Schreiben kritisch bewerten

Die meisten Lernenden erhalten nutzloses KI-Feedback zu ihren Schreiben-Aufgaben, weil sie das Modell ansprechen wie eine Freundin: „Ist das gut?" „Kannst du das verbessern?" Das Standardverhalten großer Sprachmodelle 2026 ist hilfsbereit und ermutigend — also genau das Gegenteil dessen, was ein echter Prüfer am Goethe-Institut tut. Dieser Beitrag ist die dritte Speiche unseres Pillar-Clusters „AI Writing Mastery". Speiche 1 half Ihnen, zwischen KI und menschlicher Tutorin zu wählen. Speiche 2 entschlüsselte die vier offiziellen Kriterien --- Aufgabenerfüllung, Kohärenz, Wortschatz, Strukturen. Dieser Artikel setzt voraus, dass Sie sich für KI entschieden haben und nun prüfertaugliches Output wollen. Die Disziplin heißt Prompt-Engineering plus kritisches Lesen, angewendet auf das Goethe-Schreiben.

Die „generische Prompt"-Falle — warum die meisten Lernenden unbrauchbares KI-Feedback bekommen

Öffnen Sie ein beliebiges KI-Tool. Fügen Sie Ihren Goethe-Zertifikat B2 Forumsbeitrag ein. Tippen Sie: „Bitte überprüfe meinen Aufsatz." Sie erhalten begeisterte Oberflächenkorrekturen, drei vage Hinweise zum „Lesefluss" und einen Tipp, „mehr fortgeschrittenen Wortschatz" zu verwenden. Das ist die generische Prompt-Falle. Die KI fällt in den hilfsbereiten Tutor-Modus zurück, der auf allgemeines Feedback geeicht ist — und nicht auf die kompromisslose Genauigkeit, die ein Prüfer anlegt.

Echte Prüfer des Goethe-Instituts werden auf das offizielle Bewertungsraster trainiert. Sie geben kein Daumen-hoch. Sie prüfen, ob jeder Leitpunkt bearbeitet wurde. Sie zählen Konnektoren und deren Typ. Sie kennzeichnen Aufgabenerfüllungs-Mängel sofort, wenn einer der vier Leitpunkte im Schreiben fehlt. Der Unterschied zu generischem KI-Feedback ist enorm — und über die Prompt-Struktur vollständig behebbar.

Ein Arbeitspapier des Goethe-Instituts 2026 zur KI-gestützten Vorbereitung ergab: Lernende mit generischen Prompts übersahen 60 % der Aufgabenerfüllungsprobleme, die ein menschlicher Prüfer markiert hätte. Lernende mit einem kriterienstrukturierten Prompt schlossen diese Lücke auf unter 20 %. Die Prompt-Struktur ist der Hebelpunkt.

Generischer Prompt	Prüfermodus-Prompt
„Bitte überprüfe meinen Goethe B2 Aufsatz."	„Agiere als zertifizierter Goethe-Zertifikat B2 Prüfer. Bewerte den folgenden Forumsbeitrag ausschließlich auf Aufgabenerfüllung gegen die vier unten genannten Leitpunkte. Skala 0--5 mit einem konkreten Beispiel pro Punkt."
KI liefert: Oberflächenkorrekturen + Ermutigung.	KI liefert: kriterienverankerten Score + markierter fehlender Leitpunkt + zitierte Textstelle.
Sie lernen: nichts Verlässliches.	Sie lernen: was Sie vor dem Prüfungstag korrigieren müssen.

Die vierteilige Prompt-Struktur, die den Prüfermodus erzwingt

Prüfertaugliches Output erfordert vier Prompt-Zutaten in dieser exakten Reihenfolge. Lassen Sie eine weg, und das Modell driftet in den Ermutigungsmodus zurück.

1. Systemrolle — verankern Sie die KI in einer definierten professionellen Identität. „Agiere als zertifizierter Goethe-Zertifikat Prüfer, geschult am Modellsatz 2026 auf der Stufe B2." Das aktiviert den Prüfer-Frame statt des Standard-Tutor-Frames.

2. Kriterienfokus — fordern Sie EIN Kriterium pro Prompt: Aufgabenerfüllung, Kohärenz, Wortschatz oder Strukturen. Wenn Sie „alle vier gleichzeitig" verlangen, kollabiert die Antwort in Allgemeinplätze. Ein Kriterium pro Prompt erzwingt Tiefe.

3. Aufgabenkontext — fügen Sie die ursprüngliche Schreiben-Aufgabe mit allen Leitpunkten wortgetreu ein. Die KI kann Aufgabenerfüllung nicht bewerten, ohne zu wissen, welche Punkte zu behandeln waren. Die meisten Lernenden überspringen diesen Schritt und wundern sich über flaches Feedback.

4. Ausgabeformat — geben Sie exakt vor, wie das Urteil aussehen soll: Skala 0--5 mit einem konkreten Textbeispiel pro Subdimension, als Tabelle strukturiert, mit einer abschließenden „Behalten / Verwerfen / Markieren"-Zeile. Format-Vorgaben begrenzen Halluzinationen.

Hier ist ein fertig zusammengesetzter Prompt zum Einfügen:

SYSTEM: Agiere als zertifizierter Goethe-Zertifikat B2 Prüfer,
geschult am Modellsatz 2026.\
\
KRITERIENFOKUS: Ausschließlich Aufgabenerfüllung. Bewerte die anderen
drei Kriterien nicht.\
\
AUFGABENKONTEXT: Die Kandidatin sollte einen Forumsbeitrag (80--120
Wörter, halbformaler Register) zu folgenden Leitpunkten verfassen:\
1. Beschreiben Sie Ihre Erfahrung mit Online-Lernen.\
2. Nennen Sie zwei Vorteile.\
3. Nennen Sie zwei Nachteile.\
4. Empfehlen Sie ein Vorgehen für neue Lernende.\
\
AUSGABEFORMAT: Eine Tabelle mit Zeilen für jeden Leitpunkt. Spalten:
Bearbeitet (J/N), Score 0--5, Zitiertes Textbeispiel, konkrete Lücke
zur Korrektur.\
\
TEXT:\
\[Schreiben hier einfügen\]

KI-Feedback wie ein Prüfer lesen — Behalten, Verwerfen, Markieren

Selbst ein perfekt strukturierter Prompt liefert Output, dem man nicht blind vertrauen kann. Sie müssen die Antwort weiterhin mit demselben kritischen Blick lesen, den ein Prüfer auf Ihren Text wirft. Die einfachste Disziplin ist die Drei-Eimer-Methode: jede Behauptung der KI gehört in BEHALTEN, VERWERFEN oder MARKIEREN.

Eimer	Definition	Beispiel aus typischer KI-Antwort
BEHALTEN	Konkret, spezifisch, kriterienverankert und aus Ihrem Text zitiert.	„Leitpunkt 3 (Nachteile) ist nicht bearbeitet — nur ein Nachteil erscheint in Zeile 4."
VERWERFEN	Vage Komplimente, generische Warnungen, abgesicherte Formulierungen ohne Verankerung.	„Ihr Aufsatz hat eine schöne Struktur und einen guten Lesefluss." → verwerfen.
MARKIEREN	Nicht überprüfbare Behauptungen, Prüfernamen-Anspielungen, falsche statistische Sicherheit.	„Das entspricht dem Goethe-Institut-Konsens für obere B2-Kandidaten." → markieren, nicht vertrauen.

Der „Verwerfen"-Eimer ist der wichtigste. Generisches KI-Lob fühlt sich gut an und trainiert Sie darauf, sich für prüfungsbereit zu halten, obwohl Sie es noch nicht sind. Die Drei-Eimer-Disziplin verwandelt KI-Feedback von einem Selbstvertrauensschub in ein diagnostisches Werkzeug.

→ [[Vier Goethe-Schreibkriterien mit KI]{.underline}](https://goethecoach.de/vier-goethe-schreibkriterien-mit-ki/)

Halluzinationsmuster, die nur beim Goethe-Schreiben auftreten

KI-Modelle halluzinieren in vorhersehbaren Mustern, wenn sie deutsches Prüfungsschreiben bewerten sollen. Wer die fünf häufigsten Fehlermodi kennt, fängt sie ab, bevor sie die Vorbereitung verfälschen.

Halluzinationsmuster	Erscheinungsbild	So fangen Sie es ab
Phantom-Leitpunkt-Abdeckung	Die KI behauptet, einen Leitpunkt sei abgedeckt, obwohl er nicht bearbeitet wurde — oft, um die Wertung wohlwollend zu polstern.	Stellen Sie eine Kontroll-Frage: „Zitiere den/die genauen Satz/Sätze, in denen Leitpunkt 3 bearbeitet wird." Findet die KI kein wörtliches Zitat, war die Abdeckung halluziniert.
Falsche Konjunktiv II-Vorschläge in B1	Die KI schlägt Konjunktiv II in B1-Aufgaben vor, obwohl Konjunktiv II dort nicht erwartet wird, und bläst den Schwierigkeitsgrad künstlich auf.	Verankern Sie den Prompt an der GER-Stufe. Übersteigt ein Vorschlag den Grammatik-Umfang der Stufe, verwerfen Sie ihn.
Erfundene Modellsatz-Zitate	Die KI bezieht sich auf einen bestimmten Modellsatz („den Modellsatz 2024"), der nicht existiert oder nicht zur Behauptung passt.	Gleichen Sie jedes zitierte Modellsatz-Material mit dem offiziellen Goethe-Institut Sample-Set ab. Unbestätigte Zitate gehören in MARKIEREN.
Aufgabenerfüllungs-Inflation	Die KI vergibt 4/5 auf Aufgabenerfüllung, obwohl offensichtlich ein Leitpunkt fehlt.	Zwingen Sie die KI, jeden Leitpunkt mit einer Spalte „Bearbeitet J/N" aufzulisten. Inflation kollabiert, sobald das Format strukturiert ist.
Wortschatz-Fehlkalibrierung	Die KI bezeichnet B1-Wortschatz als „starkes B2", um zu ermutigen, oder markiert Standard-B2-Wortschatz als „zu einfach".	Verankern Sie mit einer GER-Wortschatz-Referenz. Fragen Sie: „Klassifiziere jedes unterstrichene Wort als A1/A2/B1/B2/C1/C2 nach GER-Skala." Widersprüche werden schnell sichtbar.

Die Verwerfen-Checkliste — 8 Situationen, in denen die KI falsch liegt

Unten finden Sie acht spezifische Situationen, in denen KI-Feedback zum Goethe-Schreiben verlässlich falsch ist. Wenn Sie eine davon sehen, verwerfen Sie die KI und behalten Ihre ursprüngliche Wahl — es sei denn, eine zusätzliche Prüfung bestätigt den Vorschlag.

5. Die KI sagt, ein Forumsbeitrag solle mit „Sehr geehrte Damen und Herren" beginnen. → Falscher Register. Forumsbeitrag ist halbformell, kein Brief. Verwerfen.

6. Die KI markiert einen Konnektor als „zu fortgeschritten", obwohl er auf der offiziellen B1-Liste steht (z. B. weil, deshalb, trotzdem). → Über-Kalibrierung. Verwerfen.

7. Die KI schlägt Konjunktiv II in einer Brief schreiben B1-Aufgabe vor. → Konjunktiv II tritt produktiv erst ab B2 auf. Verwerfen.

8. Die KI vergibt 4/5 auf Aufgabenerfüllung, gibt aber zu, dass ein Leitpunkt fehlt. → Aufgabenerfüllung mit fehlendem Leitpunkt kann maximal 2/5 sein. Score verwerfen.

9. Die KI zieht Punkte für die Länge ab, obwohl Ihre Wortzahl im offiziellen Rahmen liegt. → Der offizielle Rahmen ist der einzig gültige. Verwerfen.

10. Die KI „korrigiert" Ihr Deutsch in natürlicher klingende Englisch-Lehnübersetzungen (z. B. „Ich möchte einen Beitrag machen"). → Übersetzungs-Frame-Leak. Verwerfen.

11. Die KI wechselt den Register mitten im Text — beginnt formell, driftet informell ab. → Prüfer sanktionieren Register-Drift hart. Verwerfen und mit Register-Konsistenz-Vorgabe neu prompten.

12. Die KI erfindet einen Prüfer-Konsens, der nicht existiert (z. B. „die meisten Prüfer bevorzugen diese Einleitung"). → Es gibt kein öffentliches Konsens-Dokument. Markieren und ignorieren.

→ [[Goethe B2 Forumsbeitrag Schritt für Schritt]{.underline}](https://goethecoach.de/goethe-b2-schreiben-teil-1-forumsbeitrag/)

→ [[Brief schreiben B1]{.underline}](https://goethecoach.de/brief-schreiben-b1/)

Wann an menschliche Begutachtung übergeben — der hybride Burggraben

Auch die bestge-promptete KI ersetzt nicht jede menschliche Begutachtung. Drei Auslöser zeigen, dass die KI kein nutzbares Signal mehr liefert und ein Prüfer-trainierter menschlicher Tutor der richtige nächste Schritt ist.

Auslöser 1 — Die KI gibt nach drei Überarbeitungen denselben Score.

Entweder Sie haben ein Plateau erreicht, oder die KI sieht Ihre spezifische Schwäche nicht. Eine menschliche Begutachtung identifiziert, was dem Modell fehlt.

Auslöser 2 — Ihr Text besteht Aufgabenerfüllung und Kohärenz, stockt

aber bei Wortschatz und Strukturen. Diese beiden Kriterien honorieren Bandbreite und Register-Feinheit, die KI-Feedback systematisch unterbewertet.

Auslöser 3 — Sie sind weniger als zwei Wochen vor der eigentlichen

Prüfung. Der letzte Durchgang auf produktionsreifen Texten gehört in menschliche Hände. KI-Feedback ist Volumen-Ebene; menschliche Begutachtung ist Entscheidungs-Ebene.

Das hybride Modell von GoetheCoach platziert KI-Feedback als Volumenschicht (jeder Entwurf, sofortige Rückmeldung, kriteriengetaggt) und einen Goethe-trainierten Tutor als Entscheidungsschicht für die letzten zwei bis drei Texte vor der Prüfung. Das ist der Burggraben: nicht KI gegen Mensch, sondern KI dann Mensch — im richtigen Verhältnis für die jeweilige Vorbereitungsphase.

→ [[KI vs Mensch: Goethe Schreiben Feedback]{.underline}](https://goethecoach.de/ki-vs-mensch-goethe-schreiben-feedback/)

Die praktische Prompt-Bibliothek — 5 sofort einsetzbare Vorlagen

Speichern Sie die folgenden fünf Vorlagen. Passen Sie die eckigen Klammern an Ihre Aufgabe an. Jede Vorlage enthält die vier Prompt-Zutaten aus Abschnitt 2.

Forumsbeitrag B2 — vollständige Bewertung

Agiere als zertifizierter Goethe-Zertifikat B2 Prüfer, geschult am
Modellsatz 2026. Bewerte den folgenden Forumsbeitrag nach ALLEN vier
Kriterien — Aufgabenerfüllung, Kohärenz, Wortschatz, Strukturen ---
jeweils in eigener Tabelle. Original-Leitpunkte: \[4 Leitpunkte
einfügen\]. Zitiere pro Kriterium ein konkretes Textbeispiel. Schließe
mit „Behalten / Verwerfen / Markieren" je Feedback-Punkt ab.

Brief schreiben B1 — Register-Prüfung

Agiere als zertifizierter Goethe-Zertifikat B1 Prüfer. Bewerte den
folgenden Brief ausschließlich auf Register. Identifiziere jeden Satz,
der vom intendierten Register (formell oder informell) abdriftet.
Zitiere jeden Driftpunkt wortgetreu. Bewerte keine anderen Kriterien.
Original-Schreiben-Aufgabe und Adressatin: \[einfügen\].

Aufgabenerfüllungs-Audit

Agiere als zertifizierter Goethe-Zertifikat \[B1/B2/C1\] Prüfer. Liste
die vier Leitpunkte der Originalaufgabe auf. Für jeden: Bearbeitet
(J/N), Score 0--5, Zitat aus dem Text, zu schließende Lücke.
Kommentiere keine Grammatik oder Wortschatz. Leitpunkte: \[einfügen\].
Text: \[einfügen\].

Wortschatz-Stufenprüfung

Agiere als GER-kalibrierter Lexikograph. Klassifiziere jedes
unterstrichene Wort im folgenden Text als A1, A2, B1, B2, C1 oder C2
nach GER. Ausgabe als Tabelle mit drei Spalten: Wort, Stufe,
Ersatzvorschlag auf nächsthöherer Stufe. Text: \[einfügen\].

Letzter Durchgang im Prüfermodus

Du führst den letzten Durchgang vor dem Prüfungstag auf einem
Goethe-Zertifikat \[B1/B2/C1\] Schreiben-Text durch. Wende das
vollständige offizielle Bewertungsraster an: Aufgabenerfüllung,
Kohärenz, Wortschatz, Strukturen. Pro Kriterium: Score 0--5 mit einem
Beispiel. Schließe mit einem einzigen „Bereit / Nicht bereit"-Urteil
und den drei wichtigsten Überarbeitungs-Prioritäten. Sei
kompromisslos, nicht ermutigend.

→ [[Redemittel & Konnektoren B2/C1]{.underline}](https://goethecoach.de/redemittel-konnektoren-b2-c1/)

Wichtigste Erkenntnisse

Generische Prompts produzieren Lob; Prüfermodus-Prompts produzieren

diagnostisches Feedback. Der Unterschied ist strukturell, nicht stilistisch.

Die vierteilige Prompt-Struktur — Systemrolle, einzelnes Kriterium,

vollständiger Leitpunkte-Kontext, Ausgabeformat — zwingt die KI aus dem Tutor-Modus in den Prüfermodus.

Behandeln Sie jede KI-Aussage mit der Drei-Eimer-Disziplin: BEHALTEN,

VERWERFEN oder MARKIEREN.

Achten Sie auf die fünf Goethe-spezifischen Halluzinationsmuster:

Phantom-Leitpunkt-Abdeckung, stufenfalscher Konjunktiv II, erfundene Modellsatz-Zitate, Aufgabenerfüllungs-Inflation, Wortschatz-Fehlkalibrierung.

Verwerfen Sie die KI in acht spezifischen Situationen ---

Register-Mismatch, übermäßig markierte Konnektoren, stufeninkompatible Grammatik-Vorschläge, inflationierte Scores, Längen-Verwirrung, englische Lehnübersetzungen, Register-Drift, erfundener Konsens.

Drei Eskalations-Auslöser geben das Signal, von KI auf menschliche

Begutachtung umzusteigen: Score-Plateau, Wortschatz-/Strukturen-Stillstand, letzte zwei Wochen vor der Prüfung.

Das hybride Modell — KI als Volumenschicht, Mensch als

Entscheidungsschicht — ist für die Goethe-Zertifikat-Vorbereitung effektiver als jede einzelne Schicht für sich.

Speichern und wiederverwenden Sie die Fünf-Prompt-Bibliothek.

Prompt-Engineering für das Goethe-Schreiben ist eine erlernbare, kumulativ wirksame Fähigkeit.

Häufig gestellte Fragen

Warum funktioniert „Bewerte meinen Goethe B2 Aufsatz" nicht als Prompt?

Weil er die KI in den Standard-Tutor-Modus versetzt, der auf Ermutigung und Oberflächenkorrekturen optimiert ist. Echte Prüfer des Goethe-Instituts wenden vier spezifische Kriterien an (Aufgabenerfüllung, Kohärenz, Wortschatz, Strukturen) mit dem offiziellen Bewertungsraster. Ein generischer Prompt überspringt diesen Rahmen, also liefert die Ausgabe allgemeines Feedback statt prüfungskalibrierter Diagnostik.

Soll ich die KI alle vier Kriterien in einem Prompt bewerten lassen?

Nein. Wer alle vier auf einmal verlangt, verflacht die Ausgabe in Allgemeinplätze. Verwenden Sie einen Prompt pro Kriterium. Das erzwingt Tiefe und erlaubt den Vergleich der Scores über Iterationen desselben Textes. Die Kombination von Kriterien ist der häufigste Grund für oberflächliches KI-Feedback.

Wie erkenne ich, wenn die KI über einen Leitpunkt halluziniert?

Stellen Sie eine Kontroll-Frage: Bitten Sie die KI, die exakten Sätze zu zitieren, in denen der Leitpunkt bearbeitet wird. Findet das Modell kein wörtliches Zitat aus Ihrem eigenen Text, war die Abdeckung halluziniert. Diese eine Technik fängt die Mehrheit der Aufgabenerfüllungs-Inflation ab.

Reicht KI-Feedback aus, um das Goethe-Zertifikat B2 oder C1 zu bestehen?

KI-Feedback genügt für die Volumenschicht — jeder Entwurf, jede Iteration, sofortige Rückmeldung. Für die Entscheidungsschicht reicht es nicht. Die letzten zwei bis drei Texte vor dem Prüfungstag sollten von einem Goethe-trainierten Tutor begutachtet werden, weil Wortschatz-Bandbreite und Register-Feinheit von KI-Feedback systematisch unterbewertet werden.

Was ist der Unterschied zwischen Verwerfen und Markieren in der Drei-Eimer-Methode?

Verwerfen bedeutet, dass die KI bei etwas Überprüfbarem falsch liegt --- falscher Register, falsche Stufe, falsche Bewertung. Sie vertrauen Ihrer eigenen Antwort und gehen weiter. Markieren bedeutet, dass die KI eine nicht leicht überprüfbare Behauptung aufstellt (z. B. „die meisten Prüfer bevorzugen das"). Sie merken es an, handeln nicht danach und fragen einen Menschen, wenn es entscheidungsrelevant ist.

Wie lang sollte ein Prüfermodus-Prompt tatsächlich sein?

Etwa 80--150 Wörter für die Prompt-Struktur plus Ihr vollständiges Schreiben. Die vier Zutaten (Systemrolle, Kriterienfokus, Aufgabenkontext einschließlich aller Leitpunkte wortgetreu, Ausgabeformat) lassen sich darunter nicht ohne Genauigkeitsverlust komprimieren. Alles Kürzere fällt typischerweise in generische Prompt-Fehlermodi zurück.

Muss die KI die ursprüngliche Aufgabe und alle Leitpunkte sehen?

Ja — immer, vollständig. Aufgabenerfüllung ist das Kriterium, das misst, ob Sie die Aufgabe bearbeitet haben. Ohne Originalaufgabe im Prompt erfindet die KI, was die Aufgabe gewesen sein soll — das ist der häufigste Auslöser für Phantom-Leitpunkt-Halluzinationen. Fügen Sie die Schreiben-Aufgabe und alle Leitpunkte jedes Mal wortgetreu ein.

Kann ich der KI bei Strukturen-Fehlern auf C1 vertrauen?

Teilweise. KI fängt mechanische Grammatikfehler über alle Stufen hinweg verlässlich. Sie ist weniger zuverlässig bei der Strukturen-Bandbreite --- die subtile Erwartung, dass ein C1-Kandidat Passiv-Konstruktionen, komplexe Konjunktiv II-Formen und Konnektoren-Vielfalt auf Satzebene einsetzt. Bei C1-Strukturen-Urteilen behandeln Sie KI-Feedback als ersten Durchgang und lassen einen Menschen die finale Kalibrierung machen. FAQPage JSON-LD: > <script type="application/ld+json">\ > {\ > "@context": "https://schema.org",\ > "@type": "FAQPage",\ > "mainEntity": \[\ > {\ > "@type": "Question",\ > "name": "Warum funktioniert „Bewerte meinen Goethe B2 Aufsatz" > nicht als Prompt?",\ > "acceptedAnswer": {\ > "@type": "Answer",\ > "text": "Weil er die KI in den Standard-Tutor-Modus versetzt, der > auf Ermutigung und Oberflächenkorrekturen optimiert ist. Echte Prüfer > des Goethe-Instituts wenden vier spezifische Kriterien an > (Aufgabenerfüllung, Kohärenz, Wortschatz, Strukturen) mit dem > offiziellen Bewertungsraster. Ein generischer Prompt überspringt > diesen Rahmen, also liefert die Ausgabe allgemeines Feedback statt > prüfungskalibrierter Diagnostik."\ > }\ > },\ > {\ > "@type": "Question",\ > "name": "Soll ich die KI alle vier Kriterien in einem Prompt > bewerten lassen?",\ > "acceptedAnswer": {\ > "@type": "Answer",\ > "text": "Nein. Wer alle vier auf einmal verlangt, verflacht die > Ausgabe in Allgemeinplätze. Verwenden Sie einen Prompt pro Kriterium. > Das erzwingt Tiefe und erlaubt den Vergleich der Scores über > Iterationen desselben Textes. Die Kombination von Kriterien ist der > häufigste Grund für oberflächliches KI-Feedback."\ > }\ > },\ > {\ > "@type": "Question",\ > "name": "Wie erkenne ich, wenn die KI über einen Leitpunkt > halluziniert?",\ > "acceptedAnswer": {\ > "@type": "Answer",\ > "text": "Stellen Sie eine Kontroll-Frage: Bitten Sie die KI, die > exakten Sätze zu zitieren, in denen der Leitpunkt bearbeitet wird. > Findet das Modell kein wörtliches Zitat aus Ihrem eigenen Text, war > die Abdeckung halluziniert. Diese eine Technik fängt die Mehrheit der > Aufgabenerfüllungs-Inflation ab."\ > }\ > },\ > {\ > "@type": "Question",\ > "name": "Reicht KI-Feedback aus, um das Goethe-Zertifikat B2 oder > C1 zu bestehen?",\ > "acceptedAnswer": {\ > "@type": "Answer",\ > "text": "KI-Feedback genügt für die Volumenschicht — jeder > Entwurf, jede Iteration, sofortige Rückmeldung. Für die > Entscheidungsschicht reicht es nicht. Die letzten zwei bis drei Texte > vor dem Prüfungstag sollten von einem Goethe-trainierten Tutor > begutachtet werden, weil Wortschatz-Bandbreite und Register-Feinheit > von KI-Feedback systematisch unterbewertet werden."\ > }\ > },\ > {\ > "@type": "Question",\ > "name": "Was ist der Unterschied zwischen Verwerfen und Markieren > in der Drei-Eimer-Methode?",\ > "acceptedAnswer": {\ > "@type": "Answer",\ > "text": "Verwerfen bedeutet, dass die KI bei etwas Überprüfbarem > falsch liegt — falscher Register, falsche Stufe, falsche Bewertung. > Sie vertrauen Ihrer eigenen Antwort und gehen weiter. Markieren > bedeutet, dass die KI eine nicht leicht überprüfbare Behauptung > aufstellt (z. B. „die meisten Prüfer bevorzugen das"). Sie merken es > an, handeln nicht danach und fragen einen Menschen, wenn es > entscheidungsrelevant ist."\ > }\ > },\ > {\ > "@type": "Question",\ > "name": "Wie lang sollte ein Prüfermodus-Prompt tatsächlich > sein?",\ > "acceptedAnswer": {\ > "@type": "Answer",\ > "text": "Etwa 80--150 Wörter für die Prompt-Struktur plus Ihr > vollständiges Schreiben. Die vier Zutaten (Systemrolle, > Kriterienfokus, Aufgabenkontext einschließlich aller Leitpunkte > wortgetreu, Ausgabeformat) lassen sich darunter nicht ohne > Genauigkeitsverlust komprimieren. Alles Kürzere fällt typischerweise > in generische Prompt-Fehlermodi zurück."\ > }\ > },\ > {\ > "@type": "Question",\ > "name": "Muss die KI die ursprüngliche Aufgabe und alle Leitpunkte > sehen?",\ > "acceptedAnswer": {\ > "@type": "Answer",\ > "text": "Ja — immer, vollständig. Aufgabenerfüllung ist das > Kriterium, das misst, ob Sie die Aufgabe bearbeitet haben. Ohne > Originalaufgabe im Prompt erfindet die KI, was die Aufgabe gewesen > sein soll — das ist der häufigste Auslöser für > Phantom-Leitpunkt-Halluzinationen. Fügen Sie die Schreiben-Aufgabe und > alle Leitpunkte jedes Mal wortgetreu ein."\ > }\ > },\ > {\ > "@type": "Question",\ > "name": "Kann ich der KI bei Strukturen-Fehlern auf C1 > vertrauen?",\ > "acceptedAnswer": {\ > "@type": "Answer",\ > "text": "Teilweise. KI fängt mechanische Grammatikfehler über alle > Stufen hinweg verlässlich. Sie ist weniger zuverlässig bei der > Strukturen-Bandbreite — die subtile Erwartung, dass ein C1-Kandidat > Passiv-Konstruktionen, komplexe Konjunktiv II-Formen und > Konnektoren-Vielfalt auf Satzebene einsetzt. Bei > C1-Strukturen-Urteilen behandeln Sie KI-Feedback als ersten Durchgang > und lassen einen Menschen die finale Kalibrierung machen."\ > }\ > }\ > \]\ > }\ > </script>

Quellen

Goethe-Institut (2024). Prüfungsrichtlinien Goethe-Zertifikat B2.

Offizielles Bewertungsraster für Schreiben.

Goethe-Institut (2026). Arbeitspapier zur KI-gestützten

Prüfungsvorbereitung — Analyse der Aufgabenerfüllungs-Abdeckung.

Gemeinsamer europäischer Referenzrahmen für Sprachen (GER), Europarat.

Goethe-Institut Modellsatz B1, B2, C1 — öffentlich verfügbare

Beispielprüfungen.

GoetheCoach interne Auswertung (2026) zur vierteiligen Prompt-Struktur

gegenüber generischen Prompts.

Schreiben üben mit prüferqualitativem Feedback

Pro Kriterium getrennt bewertet — KI-Volumen, menschliche Validierung.

Kostenlos starten