Synthetische Trainingsdaten: wenn echte Beispiele fehlen — und wo das nach hinten losgeht

Wie du fehlende Trainingsbeispiele durch Vervielfältigen und Erzeugen ersetzt — warum unechte Daten dem Modell Falsches beibringen und der Test immer echt bleibt.

Zwei Seiten zuvor lief es immer auf dieselbe Wand zu: Für die seltenen Fälle fehlen die echten Beispiele. Der seltene Defekt, von dem du fünf Stück hast. Die neue Produktvariante ohne Fotos. Die Vielfalt an Hintergründen, die ein Kundenfoto mitbringt und dein Katalog nicht. Feinabstimmung und Qualitätskontrolle scheitern beide genau hier, an zu wenig Daten.

Synthetische Daten füllen diese Lücke — und tragen eine Falle in sich, die ein ganzes Projekt kippen kann. Unechte Daten, die nicht zur Wirklichkeit passen, bringen dem Modell das Falsche bei. Diese Seite zeigt, wie man die Lücke füllt, ohne in die Falle zu treten.

zu wenig

für die seltenen Fälle fehlen die echten Beispiele zum Lernen

billig vs. riskant

Vervielfältigen ist sicher, freies Erzeugen ist mächtig und gefährlich

echt bleibt echt

gemessen wird nie auf synthetischen Daten, sondern immer auf echten

Zwei Stufen: vervielfältigen und erzeugen

Es gibt zwei sehr unterschiedliche Wege, und sie tragen sehr unterschiedliche Risiken.

Das Vervielfältigen nimmt deine echten Bilder und variiert sie — drehen, beschneiden, Helligkeit und Licht ändern, Rauschen, leichte Verdeckung. Aus einem Bild werden viele Varianten desselben echten Motivs. Das ist billig, risikoarm und fast immer ein Gewinn, weil das Motiv echt bleibt und nur die Bedingungen variieren.

Das Erzeugen schafft neue Beispiele, die es so nie gab — aus 3D-Modellen gerendert, zusammengesetzt (einen Defekt auf ein gutes Teil montiert, ein Produkt vor wechselnde Hintergründe gesetzt) oder mit Bildmodellen generiert. Das ist mächtiger, gerade für die wirklich seltenen Fälle — und genau hier lauert die Falle.

Die Realismus-Falle

Wenn die erzeugten Daten nicht zur Wirklichkeit passen, lernt das Modell die Unterschiede deiner Erzeugung statt das echte Signal. Trainierst du auf zu sauberen Renderings, glänzt das Modell auf Renderings und versagt auf den unordentlichen echten Bildern von der Linie. Es hat gelernt, wie deine synthetischen Daten aussehen, nicht, wie ein echter Defekt aussieht.

Beim Zusammensetzen ist das besonders heimtückisch: Montierst du einen Defekt auf ein Teil, ohne dass Licht und Kanten stimmen, lernt das Modell die Montagekante als Defektmerkmal. Generierte Bilder wiederum erfinden manchmal Details, die es nie gibt — und gerade bei feinen Unterscheidungen, wie sie Schmuck oder Stoffe brauchen, führt das Modell das in die Irre. Erzeugte Daten sind nur so gut, wie sie der Realität gleichen.

Der Test bleibt echt

Hier ist die Regel, die unverhandelbar ist: Gemessen wird nie auf synthetischen Daten. Würdest du dein Modell an deinen eigenen erzeugten Beispielen prüfen, misst du, wie gut es deine Erzeugung beherrscht — nicht, wie gut es in der Wirklichkeit funktioniert. Du misst die Vorurteile deines Generators.

Die zurückgehaltene Testmenge besteht immer aus echten Daten. Synthetik darf ins Training, niemals in die Prüfung. Das ist dieselbe Disziplin wie bei jeder Bewertung: Du misst gegen die Realität, nicht gegen das, was du dir selbst gebaut hast.

Wie ich das angehe

Echte Bilder vervielfältigen

zuerst, weil billig und sicher

▶

Vorhandene Bilder variieren — drehen, beschneiden, Licht, Rauschen, leichte Verdeckung. Risikoarm und fast immer ein Gewinn.

Nur für echte Lücken erzeugen

▶

Synthetische Beispiele gezielt für die wirklich seltenen Fälle, nicht pauschal. Erzeugen ist die Ausnahme, nicht der Standard.

Zusammengesetztes realistisch machen

▶

Ein montierter Defekt muss in Licht und Kanten plausibel sein, sonst lernt das Modell die Montagekante statt den Defekt.

Synthetisch mit echt mischen

▶

Die echten Daten nicht im Synthetischen ertränken. Synthetik ergänzt, sie ersetzt nicht.

Auf echter Testmenge messen

die eine Regel

▶

Niemals auf synthetischen Daten prüfen. Die Testmenge ist immer echt, sonst misst du deinen Generator.

Wo es in der Praxis kippt

Der Realismus-Abstand. Erzeugte Daten, die nicht zur Wirklichkeit passen, bringen dem Modell das Falsche bei. Es lernt die Artefakte deiner Erzeugung, nicht das echte Signal.

Messen auf Synthetik. Wer sein Modell an erzeugten Daten prüft, misst die eigenen Vorurteile. Der Test bleibt echt, immer.

Synthetik als Ersatz. Sie ist eine Ergänzung für knappe Fälle, kein Ersatz für echte Daten. Wer sein Training fast nur auf Synthetik baut, baut auf Sand.

Montagekanten als Falschsignal. Schlecht zusammengesetzte Bilder bringen dem Modell die Naht bei, nicht den Inhalt. Realismus beim Zusammensetzen ist Pflicht.

Erfundene Muster. Generierte Bilder können Details erfinden, die es nicht gibt — gerade bei feinen Unterscheidungen ein Risiko.

Was es kostet — und woran

Das Vervielfältigen ist nahezu kostenlos und fast immer einen Versuch wert. Das gezielte Erzeugen kostet echten Aufwand — ein Render-Aufbau, sauberes Zusammensetzen, und vor allem die Prüfung, ob das Ergebnis realistisch genug ist. Dieser versteckte Posten, die Realismus-Validierung, ist der, den die meisten vergessen.

Rechtfertigen tust du den Aufwand über die Knappheit, die er löst. Wer dir synthetische Daten als bequemen Ersatz für echtes Sammeln verkauft, übergeht die Realismus-Falle — und die rächt sich genau dann, wenn das Modell in der Wirklichkeit landet.

Wie ein ehrlicher Einstieg aussieht

Fang mit dem Vervielfältigen deiner echten Bilder an und miss auf einer echten, zurückgehaltenen Testmenge, ob es hilft. Meistens tut es das, kostenlos. Reicht ein bestimmter seltener Fall danach immer noch nicht, erzeuge gezielt synthetische Beispiele nur für diesen Fall und prüf, ob sie die Leistung auf echten Bildern verbessern — nicht auf synthetischen. Bleibt die echte Testmenge der Maßstab, kann dir die Synthetik wenig anhaben.

Worauf du achtest, wenn dir das jemand baut

Wird erst vervielfältigt, bevor erzeugt wird? Das günstige, sichere Mittel zuerst.
Wird erzeugte Synthetik gegen echte Daten validiert, oder blind ins Training gekippt?
Bleibt die Testmenge echt — niemals synthetisch? Das ist das K.-o.-Kriterium.
Ist Synthetik eine Ergänzung, nicht der Ersatz für echtes Sammeln?
Wird beim Zusammensetzen auf Realismus geachtet (Licht, Kanten)?

Zum Mitnehmen

Die Reihenfolge und die eine Regel entscheiden über Erfolg oder Schaden. Dieser Ablauf hält dich auf der sicheren Seite:

Synthetische Daten — was, wann, und die eine Regel:
1. ZUERST VERVIELFÄLTIGEN: variiere deine echten Bilder (Drehung, Ausschnitt, Helligkeit/Licht,
   Rauschen, leichte Verdeckung). Billig, risikoarm, fast immer ein Gewinn.
2. Miss auf einer ECHTEN, zurückgehaltenen Testmenge, ob die Vervielfältigung hilft.
3. Reicht ein seltener Fall immer noch nicht (z. B. ein seltener Defekt) -> erzeuge gezielt
   synthetische Beispiele NUR dafür. Achte auf Realismus: Licht, Kanten, plausibler Hintergrund.
4. Mische synthetisch mit echt — lass die echten Daten nicht untergehen.
5. DIE EINE REGEL: Die Testmenge ist IMMER echt. Wer auf synthetischen Daten misst, misst die
   Vorurteile seines Generators, nicht die Wirklichkeit.

Dir fehlen Beispiele für die seltenen Fälle — den seltenen Defekt, die neue Variante —, und du überlegst, Daten zu erzeugen? Dann reden wir darüber, wo Vervielfältigen schon reicht und wo erzeugte Daten dem Modell mehr schaden als nützen.