KI Klartext

Das durchsuchbare Archiv (RAG): Wenn dein Firmenwissen auf Fragen antwortet

Wie aus verstreuten Dokumenten ein Archiv wird, das mit Quelle antwortet — die Technik dahinter heißt RAG: was sie kann, wo sie kippt und was sie kostet.

Die meisten fragen: “Kann KI unsere Dokumente lesen?” Die bessere Frage ist: “Wie oft wartet bei uns jemand auf eine Antwort, die längst irgendwo aufgeschrieben ist — nur dass die eine Person, die weiß wo, gerade nicht greifbar ist?”

Genau das löst ein durchsuchbares Archiv: Es macht aus verstreuten Dokumenten etwas, das auf Fragen in normaler Sprache antwortet — und die Quelle dazu nennt.

Fachleute nennen diesen Ansatz RAG — Retrieval-Augmented Generation. Im Klartext: Das Modell schlägt erst in deinen Dokumenten nach und antwortet dann auf dieser Basis, statt aus dem Gedächtnis zu raten. Den Begriff hörst du, sobald dir jemand so etwas anbietet — gemeint ist genau das hier. Diese Seite zeigt, was RAG wirklich kann, wo es in der Praxis kippt, was es kostet und woran du einen seriösen Anbieter erkennst. Branchenübergreifend, weil der Mechanismus überall gleich ist — nur die Dokumente sind andere.

im Kopf
das meiste Firmenwissen steckt in Köpfen und Ordnern, nicht in einer Suche
Quelle
eine brauchbare Antwort nennt die Fundstelle — sonst ist sie nicht prüfbar
Aufräumen
der größere Teil des Aufwands sind die Dokumente, nicht die KI

Was ein durchsuchbares Archiv wirklich kann

Es ist ein und dieselbe Maschine — was sie kann, hängt allein davon ab, was du hineingibst. Dasselbe RAG-Prinzip beantwortet:

  • in der Werkstatt die Frage des Monteurs nach dem Anzugsmoment aus dem Handbuch von 2011,
  • in der Kanzlei die Frage, an welcher Stelle einer dicken Akte der entscheidende Punkt steht,
  • in der Klinik die Frage der Nachtschicht nach der aktuell gültigen Verfahrensanweisung,
  • im Systemhaus die Frage “das hatten wir doch schon mal” aus alten Tickets,
  • im Zerspanungsbetrieb die Suche nach Zeichnung und Programm zum Teil von vor drei Jahren.

Der gemeinsame Nenner: Die Antwort kommt in Sekunden, in normaler Sprache, mit Quellenangabe — der Seite oder Datei, aus der sie stammt. Der Mensch springt direkt dorthin, statt zu suchen. Das ist der Kern eines RAG-Systems, und er ist mehr wert, als er klingt.

Wichtig ist, was es nicht ist: keine Suche nach Dateinamen, sondern nach Bedeutung. Du fragst, wie du denkst — “was gilt bei X” —, nicht nach dem exakten Stichwort, das zufällig im Dokument steht.

So entsteht ein RAG-Archiv

1
Dokumente sammeln
eine Sammlung, nicht alles

Nicht der ganze Bestand auf einmal. Eine zusammengehörige Sammlung — eine Baureihe, ein Mandantentyp, ein Themenbereich —, zu der die meisten Fragen kommen.

2
Lesbar machen
der Schritt, an dem die meisten scheitern

Jedes eingescannte PDF durch Texterkennung schicken und stichprobenartig prüfen, ob der Text wirklich auslesbar ist. Was hier durchrutscht, fehlt später in jeder Antwort — ohne dass es jemand merkt.

3
Zerlegen und nach Bedeutung sortieren

Die Dokumente werden in durchsuchbare Abschnitte zerlegt und so abgelegt, dass inhaltlich Ähnliches zusammenfindet. Ab hier kann in normaler Sprache gefragt werden — das ist der “Retrieval”-Teil von RAG.

4
Antwort immer mit Quelle
hier prüft der Mensch

Jede Antwort verweist auf die konkrete Fundstelle. Du siehst nicht nur das Ergebnis, sondern woher es stammt — und entscheidest, ob du es übernimmst.

Wo es in der Praxis kippt

Hier liegt der ehrliche Teil, den Anbieter selten von sich aus erzählen.

Eingescannte PDFs ohne Texterkennung. Genau die alten Dokumente, die du am dringendsten brauchst, sind oft reine Scans — Bilder ohne Text. Ohne Texterkennung fallen sie still aus der Suche. Die Antwort sieht vollständig aus, aber das entscheidende Dokument war nie drin.

Veraltete Versionen. Liegt eine abgelöste Fassung mit im Archiv, gibt die KI sie schon mal als gültig aus. Eine überholte Anweisung als „aktuell” ausgegeben ist gefährlicher als gar keine Antwort. Versionen müssen gepflegt, Abgelaufenes muss raus.

Berechtigungen. Ein RAG-Archiv kann ungewollt Wissen über Zugriffsgrenzen hinweg ausspucken — Daten des einen Kunden beim anderen, Personaldaten für alle. Wer was sehen darf, gehört geklärt, bevor das erste Dokument drin ist.

„Klingt vollständig, ist es aber nicht.” Das Modell formuliert auch dann selbstbewusst, wenn das relevante Dokument fehlt. Deshalb ist die Quellenangabe keine Spielerei, sondern die Kontrolle: keine Quelle, kein Vertrauen.

Müll rein, Müll raus. Widersprüchliche oder veraltete Quelldokumente führen zu widersprüchlichen Antworten. Das Archiv macht schlechte Dokumentation nicht gut — es macht sie nur schneller auffindbar.

Tabellen und krumme Layouts. Werte aus schlecht formatierten Tabellen werden gern falsch übernommen. Bei zahlenlastigen Dokumenten lohnt die Stichprobe besonders.

Was es kostet — und woran

Ein RAG-Projekt klingt nach Technik, ist aber zu großen Teilen Dokumentenarbeit. Die ehrliche Antwort, als Schätzung gerahmt: Der größere Teil des Aufwands steckt nicht in der KI, sondern im Aufräumen und Lesbar-Machen der Dokumente. Für eine erste, abgegrenzte Sammlung sind das erfahrungsgemäß grob ein paar Tage bis wenige Wochen, je nachdem, wie geordnet oder chaotisch dein Bestand ist und wie viel davon nur als Scan vorliegt.

Dazu kommt der laufende Teil, den viele unterschätzen: Pflege. Ein Archiv, das niemand aktuell hält, gibt mit der Zeit überholte Antworten. Plane es als etwas Lebendiges ein, nicht als einmaliges Projekt. Wer dir eine einmalige „Lösung” ohne Pflegeaufwand verspricht, hat den teuersten Posten weggelassen.

Wo du die Finger weglässt

Es denkt und entscheidet nicht. RAG findet und fasst zusammen — es bewertet nicht, ob etwas richtig, klug oder anwendbar ist. Die Entscheidung und die Verantwortung bleiben beim Menschen.

Es ist nichts für Echtzeit-Zahlen. Lagerbestand, Tagespreis, aktueller Status — das gehört nicht in ein Dokumentenarchiv, sondern braucht eine Anbindung ans jeweilige System. Ein Archiv kennt nur den Stand seiner Dokumente.

Es ersetzt keine sauberen Quellen. Wenn die Wahrheit nirgends ordentlich aufgeschrieben ist, kann auch das beste Archiv sie nicht finden.

Das Archiv findet und zeigt die Quelle. Verstehen, entscheiden und verantworten bleibt bei dir.

Wie ein ehrlicher Pilot aussieht

Nimm eine Frage, die bei euch ständig gestellt wird, und eine Dokumentensammlung, die sie beantworten sollte. Bau das Archiv nur dafür. Dann miss zwei Dinge: Spart es spürbar Suchzeit? Und — genauso wichtig — nennt es ehrlich seine Quelle und gibt zu, wenn es nichts findet, statt etwas zu erfinden? Wenn beides stimmt, hast du den Beweis, dass es trägt. Erst dann lohnt es sich, breiter zu gehen.

Worauf du achtest, wenn dir das jemand verkauft

Fünf Fragen, mit denen du jedes RAG-Angebot einordnest:

  • Nennt das System bei jeder Antwort die Quelle? Ohne Fundstelle ist nichts überprüfbar — das ist das K.-o.-Kriterium, nicht ein nettes Extra.
  • Wie geht er mit Scans und Texterkennung um? Wer das übergeht, baut dir ein Archiv, in dem genau die alten Dokumente fehlen.
  • Wie wird Veraltetes aussortiert? Ohne Versionspflege liefert das Archiv mit der Zeit überholte Antworten.
  • Wie löst er Berechtigungen und Mandantentrennung? Ohne saubere Antwort lass die Finger davon.
  • Wo liegen die Daten, und passt das zu deinem Datenschutz? Bei sensiblen Inhalten ist das die Eintrittsfrage, nicht ein Detail.
Zum Mitnehmen

Bevor du an Werkzeuge denkst, verschaff dir Klarheit, ob deine Dokumentenlage überhaupt bereit ist. Liste eure Dokumentarten auf und schick sie mit diesem Prompt durch:

Du hilfst mir einzuschätzen, welche unserer Dokumente sich für ein durchsuchbares Archiv (RAG) eignen.
Ich gebe dir eine Liste unserer Dokumentarten.

1. Markiere je Art, ob sie vermutlich als durchsuchbarer Text oder nur als Scan/Bild vorliegt
   (und damit erst Texterkennung braucht).
2. Markiere, ob die Art Zugriffsbeschränkungen hat (vertraulich, personenbezogen, mandantengebunden),
   die ein Rechtekonzept erfordern.
3. Weise auf die typische Stolperfalle hin (veraltete Versionen, Tabellen/Layout, fehlende Pflege).
4. Schlage EINEN risikoarmen Startkandidaten vor: häufig gebraucht, möglichst als Text vorhanden,
   ohne heikle Zugriffsfragen. Triff KEINE rechtliche Bewertung — markiere, was zu klären ist.

Gib das als Tabelle aus: Dokumentart | Text oder Scan | Zugriff | Stolperfalle | Start-Kandidat.

Bei dir liegt Wissen in Köpfen und Ordnern verstreut, und du fragst dich, ob ein durchsuchbares Archiv das wirklich löst? Dann reden wir über die eine Frage, die bei euch ständig gestellt wird, und die Dokumente, die sie beantworten sollten — und ich sage dir ehrlich, ob deine Lage dafür schon bereit ist oder erst aufgeräumt gehört.