Re-Ranking: der zweite Blick, der dein RAG von »fast richtig« zu »richtig« bringt

Warum die Vektorsuche nur grob sortiert und der beste Treffer oft tiefer liegt — wie Re-Ranking die Reihenfolge schärft und ohne gute Trefferquote nichts bringt.

Ein RAG, das „fast richtig” antwortet, hat meist dasselbe Problem: Es findet das richtige Thema, aber die genau passende Textstelle landet nicht oben. Sie liegt auf Platz sieben der Trefferliste, während die ersten drei Plätze ähnliche, aber schlechtere Stellen belegen. Und weil du nur eine Handvoll Treffer ins antwortende Modell gibst, fällt die richtige Stelle hinten runter. Die Antwort wird plausibel, aber daneben.

Re-Ranking ist die billigste Stufe, die genau das repariert — und die, die in neun von zehn RAG-Bauten fehlt. Es ist ein zweiter, präziserer Blick auf die Treffer der ersten Suche. Ich zeige hier, was er tut, in welcher Reihenfolge er Sinn ergibt und warum er ohne eine ordentliche Trefferquote davor nichts bringt.

Platz 7

der beste Treffer ist oft da, wo ihn niemand mehr liest

2 Aufgaben

etwas überhaupt finden ist nicht dasselbe wie es oben sortieren

eine Kurzliste

neu bewertet wird eine Handvoll Kandidaten, nicht der ganze Bestand

Warum die erste Suche nur grob sortiert

Die Vektorsuche ist schnell und skalierbar, weil sie Frage und Textstellen getrennt in Zahlenreihen verwandelt und dann nach Nähe sucht. Genau diese Trennung ist ihre Schwäche: Sie betrachtet nie Frage und Stelle zusammen, sondern vergleicht zwei fertige Vektoren. Das bringt dich zuverlässig in die richtige Nachbarschaft — der passende Absatz ist meistens irgendwo unter den ersten Treffern. Aber die genaue Reihenfolge innerhalb dieser Treffer ist oft falsch.

Für ein Archiv mit Millionen Stellen ist das der einzig praktikable erste Schritt. Du kannst nicht jede Stelle gründlich mit der Frage abgleichen, das wäre viel zu langsam. Also holst du grob und schnell — und nimmst in Kauf, dass die Sortierung noch nicht stimmt.

Was ein Re-Ranker anders macht

Der Re-Ranker dreht genau diese Schwäche um. Er schaut sich Frage und Textstelle zusammen an und vergibt eine echte Relevanznote — wie gut beantwortet diese Stelle diese Frage. Weil er beide gemeinsam betrachtet, urteilt er deutlich besser als der Vergleich zweier getrennter Vektoren.

Der Haken ist sein Preis: Dieser gründliche Blick ist zu langsam, um ihn auf den ganzen Bestand loszulassen. Perfekt ist er für eine Kurzliste. Die erste Suche holt breit und billig die Kandidaten, der Re-Ranker bewertet diese Handvoll genau und sortiert sie neu. Erst die obersten zwei, drei nach dem Re-Ranking gehen ans antwortende Modell.

Zwei Aufgaben, nicht eine

Hier ist die Einsicht, die über Erfolg entscheidet — und sie hängt direkt an der Bewertung deines Archivs. Retrieval hat zwei Jobs. Der erste ist Finden: Ist die richtige Stelle überhaupt unter den Kandidaten? Der zweite ist Sortieren: Steht sie weit genug oben, dass sie genutzt wird? Die erste Suche ist für das Finden zuständig, der Re-Ranker für das Sortieren.

Daraus folgt die Reihenfolge der Arbeit, die viele falsch herum angehen: Wenn das Finden schon scheitert — die richtige Stelle ist gar nicht in der Kurzliste —, kann kein Re-Ranker der Welt sie nach oben holen. Eine bessere Sortierung falscher Treffer bleibt falsch. Also misst du erst die Trefferquote der ersten Stufe. Stimmt die, holt der Re-Ranker den Rest. Stimmt sie nicht, reparierst du die Suche, nicht die Sortierung.

Wie ich das angehe

Breit und billig holen

auf Finden optimiert

▶

Die Vektorsuche liefert eine größere Kandidatenliste, etwa 25 bis 50 Stellen. Ziel hier ist nur, den richtigen Treffer überhaupt dabei zu haben.

Die Kurzliste neu bewerten

auf Sortieren optimiert

▶

Ein präziseres Modell schaut Frage und Stelle zusammen an und vergibt je Kandidat eine echte Relevanznote.

Die besten wenigen behalten

▶

Nach dem Re-Ranking gehen nur die obersten zwei, drei Stellen ans antwortende Modell — die, die wirklich passen.

Beide Stufen messen

sonst ratest du

▶

Trefferquote der ersten Stufe und Positionsgewinn durch die zweite. Ohne Messung weißt du nicht, ob das Re-Ranking hilft oder nur Rechenzeit kostet.

Wo es in der Praxis kippt

Müll neu sortieren. Der häufigste Irrtum: Re-Ranking auf eine erste Suche zu setzen, die den richtigen Treffer gar nicht findet. Eine perfekte Sortierung der falschen Stellen bleibt falsch. Erst die Trefferquote, dann das Re-Ranking.

Tempo und Kosten. Der Re-Ranker kostet pro Kandidat einen Modell-Aufruf. Deshalb bewertest du eine Kurzliste, nicht den Bestand — und stellst die Länge der Liste bewusst ein. Zu lang wird teuer, zu kurz verschenkt den Effekt.

Allgemein gegen Fachgebiet. Ein allgemeiner Re-Ranker hilft schon spürbar. Auf dein Fachgebiet abgestimmt hilft er mehr — gerade wenn deine Sprache speziell ist.

Besser im Gefühl, ungemessen. Re-Ranking fühlt sich fast immer wie eine Verbesserung an. Ob es eine ist, sagt nur die Messung auf deinem Prüfsatz.

Was es kostet — und woran

Der Aufbau ist gering — eine zusätzliche Stufe zwischen Suche und Antwort. Der laufende Preis ist der Modell-Aufruf pro Kandidat auf der Kurzliste, also überschaubar, solange du die Liste vernünftig hältst. Dafür ist Re-Ranking die einzelne Ergänzung mit dem besten Verhältnis von Aufwand zu Wirkung, die ich an einem einfachen RAG kenne.

Eine Bedingung, die unverhandelbar ist: Es zahlt sich nur aus, wenn die erste Suche den richtigen Treffer schon einsammelt. Wer dir Re-Ranking als Allheilmittel verkauft, ohne über die Trefferquote davor zu reden, verkauft dir eine zweite Stufe für ein Problem, das in der ersten sitzt.

Wie ein ehrlicher Einstieg aussieht

Nimm deinen Prüfsatz aus der Archiv-Bewertung. Miss zuerst: Landet die richtige Stelle überhaupt in der Kurzliste der ersten Suche? Stimmt das, häng einen Re-Ranker dahinter und miss, wie oft die richtige Stelle danach unter den obersten drei steht. Der Sprung zwischen beiden Zahlen ist der Wert des Re-Rankings, schwarz auf weiß. Ist die erste Zahl schon niedrig, lass das Re-Ranking liegen und reparier die Suche.

Worauf du achtest, wenn dir das jemand baut

Wird die Trefferquote der ersten Suche gemessen, bevor über Re-Ranking geredet wird? Sonst kuriert man das falsche Problem — das K.-o.-Kriterium.
Wird eine Kurzliste neu bewertet, nicht der ganze Bestand?
Ist der Re-Ranker bei spezieller Sprache aufs Fachgebiet abgestimmt?
Wird die Verbesserung gemessen, statt behauptet?

Zum Mitnehmen

Du kannst die Idee von Hand testen, bevor du etwas baust. Dieser Prompt ist ein einfacher Re-Ranker: Frage und Kandidaten rein, neu sortiert raus:

Du bewertest, wie gut einzelne Textstellen eine Frage beantworten, und sortierst sie neu.
Ich gebe dir die FRAGE und eine Liste KANDIDATEN-PASSAGEN.

1. Bewerte JEDE Passage einzeln, wie direkt sie die Frage beantwortet (0–10).
   Schau dabei auf Frage UND Passage zusammen, nicht nur auf Stichwort-Überlappung.
2. Sortiere die Passagen nach dieser Note absteigend.
3. Wenn KEINE Passage die Frage wirklich beantwortet, sag das ausdrücklich, statt die beste zu loben.

Gib die neu sortierte Liste mit Note und kurzer Begründung je Passage aus.

Dein RAG findet meist das richtige Thema, trifft aber die genaue Stelle nicht — zitiert den Nachbarabsatz statt den richtigen? Dann reden wir darüber, ob bei dir die Trefferquote schon stimmt und ein zweiter, schärferer Blick den Rest holt.