Praxis

Praxis

Tool-Demos und Build-in-Public aus echten Projekten.

KI-Texte, die nicht nach KI klingen: die Verräter-Muster und wie ich sie loswerde Warum KI-Texte sich selbst verraten, welche Stilmuster dahinterstecken und wie ich sie aus jedem Entwurf entferne — mit dem Prompt-Pass, den ich selbst nutze. Produktsuche per Bild: wie Bild-Embeddings aus Fotos eine Ähnlichkeitssuche machen Wie aus Produktfotos eine Ähnlichkeitssuche wird: Bild-Embeddings, Vektorsuche und die Stellen, an denen der Hintergrund gewinnt statt des Produkts. Woher du weißt, dass dein RAG nicht lügt: ein Archiv messbar machen Wie du misst, ob dein RAG die richtigen Quellen findet und treu daraus antwortet, statt zu hoffen — der Prüfsatz, die Metriken und warum der Richter selbst geprüft gehört. Eine Wissensdatenbank, die nicht nach drei Monaten verrottet Warum Wissensdatenbanken nicht an der Suchtechnik scheitern, sondern am Inhalt und an der Pflege — und wie du eine aufbaust, die in sechs Monaten noch stimmt. Eine Content-Pipeline in n8n: Themen, Entwurf, Bild, Freigabe — als System statt als Prompt Wie ich Content als Pipeline baue statt als Einzel-Prompt: jede Stufe ein eigenes Modell, ein Freigabe-Tor per Telegram, selbst gehostet — und woran es hakt. Schmuck erkennen per Bild oder Beschreibung: warum General-KI hier scheitert Warum Schmuck-Bilderkennung an winzigen Details, Reflexionen und fast identischen Varianten scheitert — und wie man Bild und Beschreibung richtig zusammenbringt. Den ganzen Look finden: aus einem Outfit-Bild eine shoppbare Produktliste machen Wie aus einem Outfit-Foto eine shoppbare Liste wird: den Look in Teile zerlegen, je Teil im Stil suchen — und warum das mehr ist als fünf Einzelsuchen. Was passt dazu: Komplementär-Empfehlungen, die nicht fünfmal dasselbe vorschlagen Warum gute Komplementär-Empfehlungen auf Kompatibilität statt Ähnlichkeit setzen, wie ein Modell lernt was zusammenpasst — und woran sich der Erfolg misst. Visuelle Qualitätskontrolle am Band: warum »99 % Genauigkeit« nichts über deine Fehler sagt Wie KI Defekte am Band erkennt — warum Genauigkeit hier in die Irre führt, beide Fehlerarten unterschiedlich teuer sind und der Aufbau zählt mehr als das Modell. Einen MCP-Server bauen: deine Daten einmal anbinden, von jedem KI-System nutzbar Wie ein MCP-Server deine Daten einmal an KI anbindet statt für jede App neu — warum der Tool-Zuschnitt die eigentliche Arbeit ist und Aktionen abgesichert gehören. Strukturierte Outputs erzwingen: warum »bitte als JSON« deine App irgendwann zerlegt Warum »antworte als JSON« in der Demo läuft und im Betrieb bricht — die Stufen von Prompt bis Schema, warum du trotzdem validierst und wann Tags besser sind. Prompts wie Code testen: damit eine Änderung nicht heimlich alles verschlechtert Warum du Prompts wie Code testest, nicht auf Textgleichheit, sondern auf Eigenschaften — damit ein Tweak oder Modellwechsel nicht heimlich anderes bricht. Re-Ranking: der zweite Blick, der dein RAG von »fast richtig« zu »richtig« bringt Warum die Vektorsuche nur grob sortiert und der beste Treffer oft tiefer liegt — wie Re-Ranking die Reihenfolge schärft und ohne gute Trefferquote nichts bringt. Agentic RAG: wenn das Modell selbst entscheidet, was es nachschlägt Wann einmal suchen nicht reicht und das Modell selbst entscheidet, was es nachschlägt — und warum diese Macht ohne Begrenzung und solides Retrieval nach hinten losgeht. Graph-RAG: wenn die Antwort in den Verbindungen steckt, nicht in einem Absatz Wann Textbrocken-RAG an Beziehungsfragen scheitert und ein Wissensgraph hilft — warum der Aufbau das Projekt ist und die meisten Fragen ihn gar nicht brauchen. Mehrsprachiges RAG: in einer Sprache fragen, in jeder Sprache finden Wie ein RAG über Dokumente in mehreren Sprachen sucht, egal in welcher gefragt wird — warum das Einbettungsmodell darüber entscheidet und Fachbegriffe die Falle sind. Ein Vision-Modell auf deine Produkte feinabstimmen: wann es sich lohnt und was es kostet Wann ein Standard-Bildmodell für deine Nische zu grob ist — warum bei der Feinabstimmung die Daten das Projekt sind und wann du es lieber lässt. Synthetische Trainingsdaten: wenn echte Beispiele fehlen — und wo das nach hinten losgeht Wie du fehlende Trainingsbeispiele durch Vervielfältigen und Erzeugen ersetzt — warum unechte Daten dem Modell Falsches beibringen und der Test immer echt bleibt. Produkterkennung an der Kasse: warum die Erkennung der einfache Teil ist Warum Produkterkennung an der Kasse vor allem Integration ist, nicht Bilderkennung — Latenz, Offline-Fähigkeit, der menschliche Rückfall und die zertifizierte Kasse. Modell-Drift überwachen: warum dein Modell still schlechter wird — und du es zuletzt merkst Warum ein Modell ohne Fehlermeldung schlechter wird — was du überwachst, wenn echte Labels hinterherhinken, und warum menschliche Korrekturen früh warnen. Ein Open-Weight-LLM selbst betreiben: Datenhoheit gegen Eigenverantwortung Wann sich ein selbst betriebenes Open-Weight-Modell lohnt — Datenhoheit und Kosten bei echtem Volumen — und warum du die Kosten nur verschiebst, nicht entfernst. Agenten, die Agenten prüfen: warum ein zweiter Blick die Qualität hebt Warum ein Modell Arbeit besser prüft als fehlerfrei produziert — wie eine Prüfer-Schleife die Qualität hebt und warum sie den Menschen am Ende nicht ersetzt. Excel automatisch aus Scans füllen: warum das Auslesen der einfache Teil ist Wie aus gescannten Belegen automatisch Excel-Zeilen werden — warum das Zuordnen zur richtigen Zelle und die Format-Fallen das eigentliche Problem sind. Produktives RAG auf Azure: was die Plattform dir abnimmt — und was nicht Wie produktives RAG auf Azure AI Foundry und AI Search entsteht — warum der Grund die eigene Cloud ist und die schweren Teile trotzdem deine bleiben.