Mehrsprachiges RAG: in einer Sprache fragen, in jeder Sprache finden

Wie ein RAG über Dokumente in mehreren Sprachen sucht, egal in welcher gefragt wird — warum das Einbettungsmodell darüber entscheidet und Fachbegriffe die Falle sind.

Jemand fragt auf Deutsch nach einer Garantieklausel, die nur in einem englischen Lieferantenvertrag steht. Ein normales RAG findet sie nicht — nicht, weil die Information fehlt, sondern weil die deutsche Frage und die englische Stelle im Vektorraum nicht zueinanderfinden. Die Antwort ist da, sie liegt nur in der falschen Sprache, und die Suche sieht das nicht.

In vielen Betrieben ist genau das der Alltag: deutsche Handbücher, englische Lieferantendokumente, russische Korrespondenz, und Leute, die in ihrer eigenen Sprache fragen. Ich arbeite selbst über Deutsch, Englisch und Russisch hinweg und kenne die Stolperstellen aus erster Hand. Mehrsprachiges RAG sorgt dafür, dass die Sprache der Frage egal wird — und es hat ein paar Fallen, die man kennen muss.

Bedeutung

gleiche Bedeutung in zwei Sprachen muss im Vektorraum nah beieinander landen

das Modell

das Einbettungsmodell entscheidet, ob die Sprachgrenze fällt oder bleibt

≠ gleich gut

die Qualität schwankt je Sprache — messen, nicht annehmen

Warum normale Suche an der Sprachgrenze scheitert

Die Vektorsuche findet, was im Bedeutungsraum nah beieinanderliegt. Ist das Einbettungsmodell aber nur auf eine Sprache trainiert oder über Sprachen hinweg schwach, landen die deutsche Frage und die englische Stelle weit auseinander, obwohl sie dasselbe meinen. Innerhalb einer Sprache funktioniert die Suche dann gut, über die Sprachgrenze hinweg verfehlt sie still die richtige Stelle.

Das Tückische ist das „still”. Du merkst es nicht an einer Fehlermeldung, sondern an Antworten, die unvollständig sind, weil die entscheidende Quelle in einer anderen Sprache lag und nie auftauchte. Die Information war da, die Suche hat die Sprachbarriere nicht überwunden.

Zwei Wege: mehrsprachig einbetten oder übersetzen

Es gibt zwei Ansätze, und du solltest dich bewusst entscheiden.

Der direkte Weg ist ein mehrsprachiges Einbettungsmodell — eines, das gleiche Bedeutung über Sprachen hinweg nah platziert. „Garantie” und „warranty” landen dann beieinander, und die sprachübergreifende Suche funktioniert ohne Umweg: in einer Sprache fragen, in jeder Sprache finden.

Der andere Weg ist Übersetzung auf eine Brückensprache — alle Dokumente und Fragen etwa ins Englische übersetzen und dann ganz normal einsprachig suchen. Das ist manchmal pragmatisch, hat aber Kosten: ein zusätzlicher Schritt, möglicher Verlust von Nuancen und Begriffen, und du musst die Originale behalten, um daraus zitieren zu können. Übersetzen ist nie verlustfrei. Welcher Weg passt, hängt von deinen Sprachen und deinem Material ab — pauschal ist keiner besser.

Die Fachbegriffe sind die Falle

Hier kippt es in der Praxis am häufigsten. Allgemeine Sprache lässt sich gut über Sprachen hinweg abbilden. Fachbegriffe nicht. Produktnamen, Rechtsbegriffe, technische Termini haben in jeder Sprache ihre eigene Bedeutung und ihre eigenen Fallstricke. Eine „Mahnung” ist nicht einfach ein „reminder”, und ob ein russischer Vertragsbegriff dem deutschen entspricht, entscheidet die Nuance, nicht die wörtliche Übersetzung.

Sowohl ein mehrsprachiges Modell als auch eine Übersetzung können solche Begriffe verwischen. Deshalb gehören die wichtigen Fachbegriffe abgesichert — über ein Glossar, das die Entsprechungen festhält, statt sie dem Modell zu überlassen. Genau an den Begriffen, auf die es rechtlich oder technisch ankommt, ist freies Übersetzen riskant.

Wie ich das angehe

Ein starkes mehrsprachiges Modell wählen

oder bewusst übersetzen

▶

Ein Einbettungsmodell, das gleiche Bedeutung über deine Sprachen hinweg nah platziert — oder die bewusste Entscheidung für den Übersetzungsweg, mit seinen Kosten.

Fachbegriffe behandeln

▶

Produkt-, Rechts- und Technikbegriffe über ein Glossar absichern, statt auf freie Übersetzung zu hoffen. Hier sitzt das meiste Risiko.

Sprachübergreifend suchen

▶

Die Frage in einer Sprache findet die Stelle in jeder Sprache. Das ist der eigentliche Gewinn gegenüber dem einsprachigen RAG.

Antwortsprache vorgeben, im Original zitieren

▶

In der Sprache des Nutzers antworten, die belegende Quelle aber in ihrer Originalsprache zeigen — damit ein Mensch sie nachprüfen kann.

Je Sprachpaar messen

keine Gleichheit annehmen

▶

Trefferquote für „Frage Deutsch, Dokument Englisch” und jede andere Kombination getrennt prüfen. Die Qualität ist nicht überall gleich.

Wo es in der Praxis kippt

Das schwache Modell scheitert still. Ein nur mäßig mehrsprachiges Einbettungsmodell liefert gute Treffer innerhalb einer Sprache und verfehlt über die Grenze hinweg — ohne dass es auffällt. Deshalb misst du sprachübergreifend, nicht nur innerhalb einer Sprache.

Ungleiche Qualität je Sprache. Mehrsprachige Modelle sind selten überall gleich gut. Nimm nicht an, dass die Trefferquote für Russisch so hoch ist wie für Englisch — prüf jedes Sprachpaar einzeln.

Übersetzung verliert Nuancen. Wer auf eine Brückensprache übersetzt, verliert genau an den Fachbegriffen, auf die es ankommt. Originale behalten und kritische Begriffe absichern.

Gemischtsprachige Dokumente. Ein deutsches Dokument mit englischen Tabellen bringt Zerlegung und Einbettung durcheinander. Solche Dokumente brauchen besondere Aufmerksamkeit.

Die Antwort driftet in die falsche Sprache. Das Modell antwortet mal in der falschen Sprache oder mischt. Die Antwortsprache gehört ausdrücklich vorgegeben, und zitiert wird im Original.

Was es kostet — und woran

Über ein normales RAG hinaus ist der Mehraufwand überschaubar: die Wahl und Prüfung des mehrsprachigen Aufbaus und die Behandlung der Fachbegriffe. Das eigentliche Risiko ist nicht der Aufwand, sondern die Annahme — zu glauben, was in einer Sprache gut läuft, laufe in allen gleich gut. Diese Annahme kostet dich die Treffer, die still über die Sprachgrenze verloren gehen.

Wer dir ein mehrsprachiges RAG verkauft, ohne die Trefferquote je Sprachpaar zu zeigen, verkauft dir eine Hoffnung. Gerade bei der Sprache, die im Modell schwächer abgedeckt ist, entscheidet die Messung, ob das System trägt.

Wie ein ehrlicher Einstieg aussieht

Bau einen kleinen, sprachübergreifenden Prüfsatz: Fragen in jeder deiner Sprachen über Inhalte in jeder anderen — deutsche Frage zu englischer Quelle, russische Frage zu deutscher Quelle. Miss die Trefferquote je Paar. Du siehst sofort, wo das Modell schwächelt und ob du den Übersetzungsweg oder eine Begriffsbehandlung brauchst. Diese eine Tabelle ist mehr wert als jedes Versprechen über „volle Mehrsprachigkeit”.

Worauf du achtest, wenn dir das jemand baut

Ist das Einbettungsmodell wirklich mehrsprachig, oder nur auf eine Sprache stark? Das entscheidet alles.
Wird die Trefferquote je Sprachpaar gemessen, oder nur insgesamt behauptet? Ohne diese Tabelle ist es eine Hoffnung — das K.-o.-Kriterium.
Gibt es eine Behandlung der Fachbegriffe über ein Glossar?
Wird die Antwortsprache vorgegeben und im Original zitiert, damit man nachprüfen kann?

Zum Mitnehmen

Die Antwort- und Zitier-Disziplin kannst du sofort vorgeben. Dieser Prompt antwortet in der Sprache der Frage und belegt im Original:

Du beantwortest Fragen anhand von Quellen, die in verschiedenen Sprachen vorliegen können.
Ich gebe dir die FRAGE und die QUELLEN (gemischt deutsch/englisch/russisch).

1. Antworte in der Sprache der FRAGE.
2. Stütze dich nur auf die Quellen. Zitiere die belegende Stelle in ihrer ORIGINALSPRACHE
   (nicht übersetzt), damit ich sie nachprüfen kann.
3. Übersetze Fachbegriffe, Produkt- und Rechtsbegriffe NICHT frei. Ist ein Begriff über die Sprachen
   hinweg mehrdeutig, nenn den Originalbegriff und markiere ihn als "[Begriff prüfen]".
4. Steht die Antwort nicht in den Quellen, sag das — erfinde keine Übersetzung und keine Aussage.

Gib die Antwort plus die zitierten Originalstellen aus.

Bei dir liegen Unterlagen auf Deutsch, Englisch und Russisch, und die Suche findet nur, was zufällig in der richtigen Sprache steht? Dann reden wir über ein, zwei deiner Sprachpaare — und ich sage dir ehrlich, ob ein mehrsprachiges Modell reicht oder ob deine Fachbegriffe eine eigene Behandlung brauchen.