Woher du weißt, dass dein RAG nicht lügt: ein Archiv messbar machen

Wie du misst, ob dein RAG die richtigen Quellen findet und treu daraus antwortet, statt zu hoffen — der Prüfsatz, die Metriken und warum der Richter selbst geprüft gehört.

Ein RAG-System ist gefährlich gut darin, überzeugend zu klingen, während es danebenliegt. In der Demo beantwortet es drei Fragen perfekt, alle nicken, es geht live. Drei Wochen später erfindet es in der vierzigsten Frage eine Klausel, die nirgends steht — und merkt es niemand, bis ein Kunde nachhakt.

Der Grund ist simpel: „Klingt plausibel” und „ist richtig” sind zwei verschiedene Dinge, und ohne Messung kannst du sie nicht auseinanderhalten. Wer sein Archiv nicht evaluiert, fliegt blind. Ich zeige hier, wie man ein RAG messbar macht — nicht mit einem akademischen Benchmark, sondern mit etwas, das auf deinen eigenen Daten eine ehrliche Zahl liefert.

2 Fragen

fand es die richtige Quelle — und blieb die Antwort treu dabei

klingt gut

flüssige, selbstsichere Antworten sind die gefährlichsten Fehler

der Prüfsatz

ohne goldene Fragen mit bekannten Antworten misst du gar nichts

Zwei Fragen, nicht eine

Wenn eine RAG-Antwort falsch ist, hat das zwei mögliche Ursachen — und du musst sie trennen, sonst reparierst du tagelang die falsche Stelle.

Die erste Frage ist die nach dem Finden: Hat das System die richtige Stelle überhaupt geholt? Wenn der relevante Abschnitt nie unter den abgerufenen Quellen landet, kann das beste Sprachmodell daraus nichts Richtiges machen. Das misst man als Treffer im oberen Bereich der Ergebnisse — ist die richtige Quelle unter den ersten fünf, zehn? Findet es nicht, ist alles danach egal.

Die zweite Frage ist die nach der Treue: Gegeben, was geholt wurde — bleibt die Antwort wirklich dabei? Steht jede Aussage der Antwort tatsächlich in den Quellen, oder hat das Modell etwas dazugedichtet? Eine Antwort kann perfekt formuliert und trotzdem ungedeckt sein. Daneben steht die Relevanz: beantwortet sie überhaupt die Frage, oder redet sie am Thema vorbei?

Finden und Treue sind getrennte Baustellen. Ein schlechtes Finden reparierst du mit Chunking, Embeddings, Re-Ranking. Eine schlechte Treue mit Prompt und Modell. Wer beides in einen Topf wirft, dreht an den falschen Schrauben.

Ohne goldenen Prüfsatz misst du nichts

Das ist der unsexy Teil, und genau deshalb überspringen ihn die meisten — und haben danach keine Wahrheit, gegen die sie prüfen könnten.

Du brauchst einen Satz echter Fragen mit bekannten Antworten und der Quelle, in der die Antwort steht. Dreißig bis hundert reichen für den Anfang, am besten aus echten Nutzerfragen, nicht aus dem Bauch. Diese Sammlung ist die Messlatte. Von Hand kuratiert, mühsam, und jeden Aufwand wert.

Ein Punkt, den fast alle vergessen: Nimm auch Fragen rein, deren Antwort nicht im Bestand steht. Ein gutes RAG muss „das steht nicht in den Unterlagen” sagen können. Wenn dein Prüfsatz nur beantwortbare Fragen enthält, testest du nie, ob das System bei einer Lücke ehrlich abwinkt oder munter etwas erfindet — und das Erfinden ist der teuerste Fehler.

So läuft eine Eval-Runde

Finden messen

Retrieval zuerst

▶

Für jede Frage prüfen: ist die bekannte richtige Quelle unter den geholten Treffern? Der Anteil über alle Fragen ist deine Trefferquote. Liegt die schon niedrig, ist das Finden dein Problem, nicht die Antwort.

Treue messen

▶

Für jede Antwort prüfen: ist jede Aussage durch die geholten Quellen gedeckt? Ungedeckte Aussagen sind Halluzinationen — auch wenn sie zufällig stimmen.

Den Abstinenz-Fall prüfen

▶

Bei den Fragen ohne Antwort im Bestand: hat das System abgewunken oder etwas behauptet? Eine erfundene Antwort hier zählt als schwerer Fehler, nicht als Schönheitsmakel.

Die Ausfälle anschauen

hier steckt die Wahrheit

▶

Nicht den Durchschnitt feiern — die schlechtesten Fälle lesen. Ein Muster in den Ausfällen sagt dir mehr als jede Kennzahl, woran es hakt.

Der Richter ist auch nur ein Modell

Die Treue von Hand für hunderte Antworten zu prüfen, skaliert nicht. Deshalb lässt man ein starkes Modell als Richter bewerten: Es bekommt Frage, Quellen und Antwort und urteilt, ob jede Aussage gedeckt ist. Das funktioniert erstaunlich gut — mit einem Haken, den man nicht ignorieren darf.

Der Richter ist selbst ein Sprachmodell und kann irren. Er ist mal zu milde, mal zu streng, und im schlimmsten Fall wäscht er einfach deine eigenen Annahmen sauber. Die Gegenmaßnahme: Prüfe den Richter. Nimm eine Stichprobe seiner Urteile und vergleiche sie mit deiner eigenen Einschätzung. Stimmen sie überein, kannst du ihm das Massengeschäft überlassen. Tun sie es nicht, schärfst du seine Anweisung nach. Ein ungeprüfter Richter ist kein Maßstab, sondern eine zweite Meinung mit unklarem Wert.

Wo es trotzdem kippt

Die eine Zahl lügt. Ein Durchschnittswert von 0,9 fühlt sich gut an und versteckt, dass die zehn wichtigsten Fragen in den 0,1 stecken. Schau auf die Verteilung und auf die Ausfälle, nie nur auf den Mittelwert.

Generische Benchmarks sagen nichts. Wie ein RAG auf einem öffentlichen Datensatz abschneidet, hat mit deinen Verträgen, Handbüchern oder Tickets nichts zu tun. Es zählt nur die Messung auf deinen Daten.

Der Prüfsatz altert. Ändert sich dein Bestand, veralten Fragen und Antworten. Die Sammlung gehört gepflegt, sonst misst du irgendwann gegen eine Vergangenheit.

Jede Änderung ist eine Regression. Anderes Chunking, neues Embedding-Modell, anderer Prompt, anderes top-k — alles kann heimlich etwas verschlechtern, das vorher lief. Deshalb läuft der Prüfsatz nach jeder Änderung neu, nicht nur einmal am Anfang.

Ein RAG, das du nicht misst, ist kein Wissenssystem, sondern ein selbstbewusster Rater. Erst der Prüfsatz macht aus „klingt gut” ein „ist belegt”.

Wie ein ehrlicher Einstieg aussieht

Sammle deine zehn bis dreißig häufigsten echten Fragen und schreib zu jeder die richtige Antwort und die Quelle dazu. Nimm drei, vier Fragen rein, deren Antwort nicht im Bestand steht. Lass das RAG alle beantworten und prüfe zwei Dinge: Findet es die richtige Quelle, und bleibt die Antwort treu — inklusive ehrlichem Abwinken bei den Lücken. Dann lies die fünf schlechtesten Fälle. Nach einem Nachmittag weißt du mehr über dein System als nach drei Wochen Bauchgefühl.

Worauf du achtest, wenn dir das jemand baut

Zeigt der Anbieter Zahlen auf deinen Daten, oder verkauft er einen Benchmark-Wert? Nur deine Daten zählen.
Trennt er Finden und Treue, oder wirft er beides in eine Note? Ohne Trennung weiß niemand, woran es liegt.
Testet er den Abstinenz-Fall — kann das System „weiß ich nicht” sagen? Das ist das K.-o.-Kriterium gegen Halluzination.
Läuft die Eval nach jeder Änderung erneut, oder war es eine Einmal-Show zum Verkaufsabschluss?

Zum Mitnehmen

Das ist der Modell-Richter, mit dem ich die Treue prüfe. Gib ihm Frage, geholte Quellen und die Antwort des Systems:

Du bist ein strenger Prüfer für RAG-Antworten. Ich gebe dir: die FRAGE, die GEHOLTEN QUELLEN
und die ANTWORT des Systems.

1. Treue: Prüfe JEDE Aussage der Antwort. Steht sie wörtlich oder sinngemäß in den Quellen?
   Liste jede Aussage, die NICHT durch die Quellen gedeckt ist, als "[nicht belegt]".
2. Relevanz: Beantwortet die Antwort die Frage tatsächlich? (ja / teilweise / nein)
3. Abstinenz: Falls die Quellen die Antwort nicht enthalten — hat das System das gesagt,
   oder trotzdem etwas behauptet? Eine erfundene Antwort ist ein schwerer Fehler.

Urteile NUR gegen die Quellen, nicht gegen dein eigenes Wissen.
Gib aus: Treue (Anteil belegter Aussagen) | Relevanz | nicht belegte Aussagen | Urteil (bestanden/durchgefallen).

Dein RAG demonstriert sich gut, aber du hast kein Gefühl, wie oft es danebenliegt? Dann reden wir über deine zehn häufigsten echten Fragen — daraus wird ein erster Prüfsatz, und du siehst schwarz auf weiß, wo es trägt und wo es rät.