Aktualisiert · 14. Mai 2026 · 11 Min. Lesezeit
Vier Kriterien

Die vier Goethe-Schreibkriterien entschlüsseln — was jedes wirklich prüft und wie KI-Feedback darauf zielen sollte

Das Goethe-Zertifikat Schreiben wird nach vier offiziellen Kriterien bewertet: Aufgabenerfüllung (alle Leitpunkte und richtige Textsorte), Kohärenz (logischer Aufbau), Wortschatz (niveauadäquater Ausdruck) und Strukturen (Grammatik und Komplexität). Jedes Kriterium zählt unabhängig. Dieser Leitfaden erklärt, was Prüfer auf jedem prüfen und wie prüfungsechtes KI-Feedback darauf zielen sollte.

Warum die vier Kriterien wirklich zählen

Wer beim Goethe-Zertifikat Schreiben scheitert, scheitert fast nie an „der Grammatik” — sondern an einem von vier benannten Kriterien, das unter die 60-Prozent-Schwelle rutscht. Genau das übersehen generische KI-Tools: sie korrigieren Grammatik und Stil, aber sagen dir nicht, welches der vier Kriterien gerade gefährdet ist.

Die offiziellen Kriterien stehen im Modellsatz und in der Prüfungsordnung des Goethe-Instituts: Aufgabenerfüllung, Kohärenz, Wortschatz, Strukturen. Diese vier Begriffe bewerten Prüferinnen und Prüfer auf jeder Niveaustufe von A1 bis C2. Sie sind die einzige Mess-Grundlage, die für deine Punktzahl zählt.

Wer das hybride Korrekturmodell aus Spoke 1 versteht — KI bewertet, ein Mensch validiert — ist hier bereits einen Schritt voraus. In diesem Artikel gehen wir eine Ebene tiefer: was jedes der vier Kriterien wirklich prüft, wo Kandidatinnen typischerweise Punkte verlieren, und wie KI-Feedback so gebaut sein muss, dass es jedes Kriterium getrennt anspricht. Mehr zum Tool-Vergleich an sich liest du in unserer hybriden Modell-Analyse: KI vs Mensch — der definitive Leitfaden zu Goethe-Schreibfeedback.

CTA: Probier GoetheCoach kostenlos — dein Übungstext nach allen vier offiziellen Kriterien einzeln bewertet. Jetzt starten

Kriterium 1 — Aufgabenerfüllung: erfüllst du den Auftrag?

Aufgabenerfüllung ist das Kriterium, an dem die meisten Kandidaten scheitern, ohne es zu merken. Es prüft drei Dinge: Leitpunkte-Abdeckung, Textsorte, und Wortzahl plus Format. Wer einen Leitpunkt vergisst, verliert sofort einen großen Teil seiner Punkte für dieses Kriterium — und damit oft die Prüfung.

Leitpunkte. Jede Schreibaufgabe enthält drei bis fünf Aufzählungspunkte, die du explizit ansprechen musst. „Beschreibe deine Erfahrung — begründe deine Meinung — schlage Verbesserungen vor — gehe auf einen Gegenposten ein.” Wer nur drei statt vier abdeckt, verliert messbar. Das ist nicht Geschmackssache, das ist Punkteverteilung.

Textsorte. Forumsbeitrag, formeller Brief, informelle Mail, Stellungnahme, Erörterung, analytischer Essay — jedes hat eigene Konventionen. Ein „Sehr geehrte Damen und Herren” in einem informellen Forumsbeitrag kostet Punkte. Eine Praxis-Tiefe für B2: Goethe B2 Schreiben Teil 1 — Forumsbeitrag Schritt für Schritt. Für B1-Briefe siehe Brief schreiben B1.

Wortzahl. Unter der Mindestgrenze: Punkte ab. Deutlich über der Höchstgrenze: Punkte ab. Die Prüfer messen das mit erstaunlicher Strenge — die Zahl im Modellsatz ist keine Empfehlung, sondern ein Korridor.

Wie sollte KI-Feedback hier zielen? Eine prüfungsadäquate KI prüft zuerst, ob alle Leitpunkte im Text vorkommen — nicht oberflächlich (Stichwortsuche), sondern semantisch (wurde der Punkt wirklich beantwortet). Sie warnt dich, wenn du Punkt 3 vergessen hast, bevor sie ein einziges Komma korrigiert. Generische KI-Tools tun das fast nie.

Kriterium 2 — Kohärenz: hält dein Text zusammen?

Kohärenz prüft, ob dein Text als ganzer Gedankengang funktioniert. Die Lehrkraft achtet auf drei Schichten: Satzverbindungen, Absatzaufbau und argumentative Linie. Generische KI bewertet meist nur die erste Schicht — gibt es Konnektoren? — und übersieht die anderen beiden völlig.

Satzverbindungen. Werden Konnektoren funktional eingesetzt? Verbindet „weil” tatsächlich eine Ursache, oder steht es nur, damit ein Konnektor da ist? Werden „aber”, „jedoch”, „dennoch” sinnvoll variiert oder mechanisch wiederholt?

Absatzaufbau. Jeder Absatz sollte einen klaren Aspekt behandeln, mit Eröffnung, Entwicklung und Übergang. Wer wahllos Zeilen umbricht, hat zwar formal Absätze, aber keine kohärente Gliederung.

Argumentative Linie. Auf B2 und C1 wird erwartet, dass dein Text einen erkennbaren Bogen hat: These, Argument, Gegenargument, Schluss. Ein hübsches Sammelsurium an Beobachtungen ohne Linie verliert hier Punkte. Eine vollständige Konnektoren-Referenz für diese Stufen: Redemittel und Konnektoren für B2/C1.

Wie sollte KI-Feedback hier zielen? Eine prüfungsadäquate KI bewertet nicht nur, ob Konnektoren vorhanden sind, sondern ob sie funktional sind. Sie markiert „weil”-Sätze, in denen keine Ursache vorliegt, und „aber”-Sätze, die keinen Gegensatz markieren. Das ist eine andere Anforderung als generische Grammatikprüfung.

Kriterium 3 — Wortschatz: stimmt das Niveau?

Wortschatz prüft, ob du Vokabular auf der erwarteten Stufe verwendest. Hier ist die Erwartungsabstufung zwischen B1, B2 und C1 brutal, und genau hier verliert man Punkte, wenn man auf zu einfacher Wortebene schreibt.

| Niveau | Wortschatz-Erwartung | Beispielwendung |

|---|---|---|

| A2 | Grundwortschatz, einfache Adjektive | „gut”, „schlecht”, „wichtig” |

| B1 | erweitert, funktional, beginnende Abstraktion | „meiner Meinung nach”, „im Allgemeinen”, „aus diesem Grund” |

| B2 | differenziert, mit Redemitteln und Abstraktionen | „in Bezug auf”, „im Hinblick darauf”, „vor diesem Hintergrund” |

| C1 | argumentativ, mit Nuancen und idiomatischer Tiefe | „demgegenüber”, „infolgedessen”, „unter Berücksichtigung von” |

| C2 | stilistische Vielfalt, register-bewusst, idiomatisch | „im Lichte von”, „nicht zuletzt deshalb”, „mit Blick auf” |

Häufige Fallen. Wer auf B2 schreibt, sollte „in Bezug auf” sicher beherrschen — nicht nur „über” verwenden. Wer auf C1 schreibt, sollte argumentative Wendungen wie „unter Berücksichtigung von” oder „demgegenüber” einsetzen, statt bei B2-Standards zu bleiben.

Wie sollte KI-Feedback hier zielen? Eine prüfungsadäquate KI bewertet niveauabhängig: B1-Wortschatz in einem B2-Text wird als Defizit markiert. Sie schlägt nicht „korrektere” Wörter vor, sondern niveau-angemessenere. Das ist die wichtigste Differenzierung zwischen Grammatikkorrektur und Prüfungsfeedback.

Kriterium 4 — Strukturen: greifen Grammatik und Komplexität?

Strukturen bewertet die Bandbreite der grammatischen Mittel, die du sicher einsetzt. Es geht nicht nur darum, Fehler zu vermeiden, sondern darum, prüfungsadäquate Komplexität zu zeigen. Wer auf B2 nur einfache Hauptsätze schreibt, verliert Punkte — auch wenn diese fehlerfrei sind.

| Strukturebene | B1-Erwartung | B2-Erwartung | C1-Erwartung |

|---|---|---|---|

| Nebensatzwortstellung | korrekt in einfachen dass-/weil-Sätzen | korrekt in mehrfach verschachtelten Nebensätzen | stilsicher mit komplexer Subordination |

| Konjunktiv II | in feststehenden Höflichkeitsformeln | aktiv in Hypothesen und höflichen Vorschlägen | in indirekter Rede, argumentativen Wendungen |

| Trennbare Verben | korrekt im Hauptsatz | korrekt auch in Nebensätzen | stilsicher in komplexen Sätzen |

| Passiv / Passivumschreibungen | rudimentär | aktiv eingesetzt | differenziert mit Passivvarianten |

| Konnektoren-Komplexität | und/aber/weil/wenn | obwohl/während/sodass | demgegenüber/infolgedessen/sofern |

Wie sollte KI-Feedback hier zielen? Eine prüfungsadäquate KI prüft auch das, was nicht da ist: hast du Konjunktiv II gar nicht verwendet? Bleibt deine Satzkomplexität durchgehend unter B2? Generische Grammatikchecker melden nur, was falsch ist — eine prüfungsadäquate KI meldet, was zu einfach ist.

Wie die vier Kriterien zusammenspielen — Gewichtung und Schwellen

Die vier Kriterien werden unabhängig benotet. Eine besonders starke Aufgabenerfüllung kompensiert keine schwachen Strukturen. Wer in einem der vier Kriterien unter 60 Prozent fällt, kann die Prüfung im Schreibteil verlieren — auch wenn die anderen drei brillieren.

Das hat eine direkte taktische Konsequenz: optimiere nicht das stärkste Kriterium, sondern hebe das schwächste. Eine prüfungsadäquate KI zeigt dir nach jedem Übungstext einen Score pro Kriterium — so weißt du, wo zu üben ist. Für einen verdichteten Wochenrahmen siehe unseren 14-Tage-Plan für das Goethe-Zertifikat B2.

CTA: Lass GoetheCoach deinen nächsten Übungstext pro Kriterium scoren. Kostenlos testen

Wie KI-Feedback auf alle vier Kriterien zielen sollte

Eine prüfungsadäquate KI liefert vier getrennte Bewertungen. Sie sagt nicht nur „grammatisch okay” — sie sagt „Aufgabenerfüllung 80 %, Kohärenz 65 %, Wortschatz 55 %, Strukturen 70 %” und markiert, was den Wortschatz-Score nach unten zieht. Hier ist die Mindestanforderung an ein Tool, das den Namen prüfungsadäquat verdient:

Wer ein Tool nutzt, das diese Mindestanforderung nicht erfüllt, trainiert sich auf Allgemeinplätze. Das ist die Hauptdiagnose aus unserer Analyse KI vs Mensch.

Was sich mit dem 2026-Format ändert

Der modernisierte Modellsatz 2026 verschiebt das Gewicht: digitale Schreibaufgaben mit knapperer Wortzahl, mehr Forumsbeiträge, häufigere halbformelle Mails. Die vier Kriterien bleiben dieselben, aber Aufgabenerfüllung (Leitpunkte-Treue) und Kohärenz (Argumentationslinie auf weniger Raum) werden härter geprüft. Eine kriterienbasierte KI federt diesen Wandel automatisch ab. Volltext-Analyse im Goethe-Prüfung 2026: Was sich ändert Pillar.

Wichtigste Erkenntnisse

Häufig gestellte Fragen

Welche vier Kriterien zählen beim Goethe-Schreiben?

Aufgabenerfüllung (Leitpunkte und Textsorte), Kohärenz (logischer Aufbau und funktionale Konnektoren), Wortschatz (niveau-angemessener Ausdruck) und Strukturen (Grammatikbreite und Komplexität). Jedes Kriterium wird unabhängig benotet, und alle vier finden sich im offiziellen Modellsatz und in der Prüfungsordnung des Goethe-Instituts.

Was bedeutet Aufgabenerfüllung genau?

Aufgabenerfüllung prüft drei Dinge: ob alle Leitpunkte aus der Aufgabe abgedeckt sind, ob du die richtige Textsorte verwendet hast (Forumsbeitrag, Brief, Stellungnahme, Erörterung) und ob Wortzahl und Format stimmen. Ein vergessener Leitpunkt kostet die meisten Punkte in diesem Kriterium.

Reicht ein hoher Score in einem Kriterium, um ein schwaches anderes zu kompensieren?

Nein. Die vier Kriterien werden unabhängig gewertet. Wer in einem Kriterium unter 60 Prozent rutscht, riskiert das Bestehen des Schreibteils — auch bei brillanten Werten in den anderen drei. Hebe das schwächste Kriterium, nicht das stärkste.

Wie unterscheidet sich Wortschatz zwischen B1, B2 und C1?

B1 erwartet funktionalen Wortschatz mit beginnender Abstraktion; B2 verlangt Redemittel wie „in Bezug auf” und „im Hinblick darauf”; C1 erwartet argumentative Wendungen wie „demgegenüber” und „infolgedessen”. Wer auf B2 schreibt, aber B1-Wortschatz benutzt, verliert Punkte selbst bei fehlerfreier Grammatik.

Was macht Kohärenz so unterschiedlich von Grammatik?

Kohärenz prüft, ob Sätze und Absätze funktional miteinander verbunden sind — ob ein „weil” tatsächlich eine Ursache anführt, ob Absätze einen klaren Aspekt behandeln, ob der Text einen argumentativen Bogen hat. Grammatik prüft Form; Kohärenz prüft Logik.

Wie sollte KI-Feedback alle vier Kriterien getrennt prüfen?

Eine prüfungsadäquate KI gibt dir vier Scores plus pro-Kriterium-Begründungen. Sie prüft Leitpunkte-Abdeckung semantisch, bewertet Konnektoren funktional, gleicht Wortschatz gegen die Niveau-Erwartung ab und misst Strukturkomplexität. GoetheCoach ist explizit so gebaut.

Wo finde ich die offiziellen Bewertungskriterien?

In den Modellsätzen und der Prüfungsordnung des Goethe-Instituts (goethe.de). Wir empfehlen, einen Modellsatz pro Niveau einmal komplett zu studieren — er macht den Unterschied zwischen „ich übe Schreiben” und „ich übe das, was geprüft wird”.

Was ändert das 2026-Format an den Kriterien?

Die vier Kriterien bleiben dieselben, aber der modernisierte Modellsatz 2026 schärft die Anforderungen an Aufgabenerfüllung (digitale Textsorten mit klareren Leitpunkten) und Kohärenz (Argumentation auf weniger Raum). Mehr in unserem 2026-Format-Pillar.

Wie viele Übungstexte sollte ich pro Kriterium schreiben?

Wer eine Schwäche identifiziert hat — etwa Wortschatz auf B2 — sollte mindestens fünf gezielte Übungstexte schreiben, in denen er bewusst niveau-angemessene Redemittel einsetzt. Mit hybrider KI-Bewertung ist das in zwei bis drei Wochen machbar.

Zitierte Quellen

JSON-LD schema blocks (embed in HTML head):

Article JSON-LD

FAQPage JSON-LD

BreadcrumbList JSON-LD

---

Übe Schreiben mit Bewertung pro Kriterium

Aufgabenerfüllung, Kohärenz, Wortschatz, Strukturen — alle vier separat bewertet.

Kostenlos starten