Zwei Seiten zuvor lief es immer auf dieselbe Wand zu: Für die seltenen Fälle fehlen die echten Beispiele. Der seltene Defekt, von dem du fünf Stück hast. Die neue Produktvariante ohne Fotos. Die Vielfalt an Hintergründen, die ein Kundenfoto mitbringt und dein Katalog nicht. Feinabstimmung und Qualitätskontrolle scheitern beide genau hier, an zu wenig Daten.
Synthetische Daten füllen diese Lücke — und tragen eine Falle in sich, die ein ganzes Projekt kippen kann. Unechte Daten, die nicht zur Wirklichkeit passen, bringen dem Modell das Falsche bei. Diese Seite zeigt, wie man die Lücke füllt, ohne in die Falle zu treten.
Zwei Stufen: vervielfältigen und erzeugen
Es gibt zwei sehr unterschiedliche Wege, und sie tragen sehr unterschiedliche Risiken.
Das Vervielfältigen nimmt deine echten Bilder und variiert sie — drehen, beschneiden, Helligkeit und Licht ändern, Rauschen, leichte Verdeckung. Aus einem Bild werden viele Varianten desselben echten Motivs. Das ist billig, risikoarm und fast immer ein Gewinn, weil das Motiv echt bleibt und nur die Bedingungen variieren.
Das Erzeugen schafft neue Beispiele, die es so nie gab — aus 3D-Modellen gerendert, zusammengesetzt (einen Defekt auf ein gutes Teil montiert, ein Produkt vor wechselnde Hintergründe gesetzt) oder mit Bildmodellen generiert. Das ist mächtiger, gerade für die wirklich seltenen Fälle — und genau hier lauert die Falle.
Die Realismus-Falle
Wenn die erzeugten Daten nicht zur Wirklichkeit passen, lernt das Modell die Unterschiede deiner Erzeugung statt das echte Signal. Trainierst du auf zu sauberen Renderings, glänzt das Modell auf Renderings und versagt auf den unordentlichen echten Bildern von der Linie. Es hat gelernt, wie deine synthetischen Daten aussehen, nicht, wie ein echter Defekt aussieht.
Beim Zusammensetzen ist das besonders heimtückisch: Montierst du einen Defekt auf ein Teil, ohne dass Licht und Kanten stimmen, lernt das Modell die Montagekante als Defektmerkmal. Generierte Bilder wiederum erfinden manchmal Details, die es nie gibt — und gerade bei feinen Unterscheidungen, wie sie Schmuck oder Stoffe brauchen, führt das Modell das in die Irre. Erzeugte Daten sind nur so gut, wie sie der Realität gleichen.
Der Test bleibt echt
Hier ist die Regel, die unverhandelbar ist: Gemessen wird nie auf synthetischen Daten. Würdest du dein Modell an deinen eigenen erzeugten Beispielen prüfen, misst du, wie gut es deine Erzeugung beherrscht — nicht, wie gut es in der Wirklichkeit funktioniert. Du misst die Vorurteile deines Generators.
Die zurückgehaltene Testmenge besteht immer aus echten Daten. Synthetik darf ins Training, niemals in die Prüfung. Das ist dieselbe Disziplin wie bei jeder Bewertung: Du misst gegen die Realität, nicht gegen das, was du dir selbst gebaut hast.
Wie ich das angehe
Vorhandene Bilder variieren — drehen, beschneiden, Licht, Rauschen, leichte Verdeckung. Risikoarm und fast immer ein Gewinn.
Synthetische Beispiele gezielt für die wirklich seltenen Fälle, nicht pauschal. Erzeugen ist die Ausnahme, nicht der Standard.
Ein montierter Defekt muss in Licht und Kanten plausibel sein, sonst lernt das Modell die Montagekante statt den Defekt.
Die echten Daten nicht im Synthetischen ertränken. Synthetik ergänzt, sie ersetzt nicht.
Niemals auf synthetischen Daten prüfen. Die Testmenge ist immer echt, sonst misst du deinen Generator.
Wo es in der Praxis kippt
Der Realismus-Abstand. Erzeugte Daten, die nicht zur Wirklichkeit passen, bringen dem Modell das Falsche bei. Es lernt die Artefakte deiner Erzeugung, nicht das echte Signal.
Messen auf Synthetik. Wer sein Modell an erzeugten Daten prüft, misst die eigenen Vorurteile. Der Test bleibt echt, immer.
Synthetik als Ersatz. Sie ist eine Ergänzung für knappe Fälle, kein Ersatz für echte Daten. Wer sein Training fast nur auf Synthetik baut, baut auf Sand.
Montagekanten als Falschsignal. Schlecht zusammengesetzte Bilder bringen dem Modell die Naht bei, nicht den Inhalt. Realismus beim Zusammensetzen ist Pflicht.
Erfundene Muster. Generierte Bilder können Details erfinden, die es nicht gibt — gerade bei feinen Unterscheidungen ein Risiko.
Was es kostet — und woran
Das Vervielfältigen ist nahezu kostenlos und fast immer einen Versuch wert. Das gezielte Erzeugen kostet echten Aufwand — ein Render-Aufbau, sauberes Zusammensetzen, und vor allem die Prüfung, ob das Ergebnis realistisch genug ist. Dieser versteckte Posten, die Realismus-Validierung, ist der, den die meisten vergessen.
Rechtfertigen tust du den Aufwand über die Knappheit, die er löst. Wer dir synthetische Daten als bequemen Ersatz für echtes Sammeln verkauft, übergeht die Realismus-Falle — und die rächt sich genau dann, wenn das Modell in der Wirklichkeit landet.
Wie ein ehrlicher Einstieg aussieht
Fang mit dem Vervielfältigen deiner echten Bilder an und miss auf einer echten, zurückgehaltenen Testmenge, ob es hilft. Meistens tut es das, kostenlos. Reicht ein bestimmter seltener Fall danach immer noch nicht, erzeuge gezielt synthetische Beispiele nur für diesen Fall und prüf, ob sie die Leistung auf echten Bildern verbessern — nicht auf synthetischen. Bleibt die echte Testmenge der Maßstab, kann dir die Synthetik wenig anhaben.
Worauf du achtest, wenn dir das jemand baut
- Wird erst vervielfältigt, bevor erzeugt wird? Das günstige, sichere Mittel zuerst.
- Wird erzeugte Synthetik gegen echte Daten validiert, oder blind ins Training gekippt?
- Bleibt die Testmenge echt — niemals synthetisch? Das ist das K.-o.-Kriterium.
- Ist Synthetik eine Ergänzung, nicht der Ersatz für echtes Sammeln?
- Wird beim Zusammensetzen auf Realismus geachtet (Licht, Kanten)?
Die Reihenfolge und die eine Regel entscheiden über Erfolg oder Schaden. Dieser Ablauf hält dich auf der sicheren Seite:
Synthetische Daten — was, wann, und die eine Regel:
1. ZUERST VERVIELFÄLTIGEN: variiere deine echten Bilder (Drehung, Ausschnitt, Helligkeit/Licht,
Rauschen, leichte Verdeckung). Billig, risikoarm, fast immer ein Gewinn.
2. Miss auf einer ECHTEN, zurückgehaltenen Testmenge, ob die Vervielfältigung hilft.
3. Reicht ein seltener Fall immer noch nicht (z. B. ein seltener Defekt) -> erzeuge gezielt
synthetische Beispiele NUR dafür. Achte auf Realismus: Licht, Kanten, plausibler Hintergrund.
4. Mische synthetisch mit echt — lass die echten Daten nicht untergehen.
5. DIE EINE REGEL: Die Testmenge ist IMMER echt. Wer auf synthetischen Daten misst, misst die
Vorurteile seines Generators, nicht die Wirklichkeit.
Dir fehlen Beispiele für die seltenen Fälle — den seltenen Defekt, die neue Variante —, und du überlegst, Daten zu erzeugen? Dann reden wir darüber, wo Vervielfältigen schon reicht und wo erzeugte Daten dem Modell mehr schaden als nützen.