Den ganzen Look finden: aus einem Outfit-Bild eine shoppbare Produktliste machen

Wie aus einem Outfit-Foto eine shoppbare Liste wird: den Look in Teile zerlegen, je Teil im Stil suchen — und warum das mehr ist als fünf Einzelsuchen.

Ein Kunde macht einen Screenshot aus Instagram: „Den ganzen Look will ich.” Auf dem Bild: eine Person auf der Straße, ein Mantel, eine Hose, Schuhe, eine Tasche. Wirfst du das Bild in eine normale Bildsuche, bekommst du ähnliche Fotos zurück — andere Leute in anderen Mänteln. Was der Kunde will, ist etwas völlig anderes: die einzelnen Teile, jedes davon kaufbar in deinem Sortiment.

Genau hier liegt der Denkfehler, den die meisten machen. Die Einzelteil-Suche ist gelöst, die Mechanik dahinter bekannt. Aber ein Look ist kein Teil. Aus Mode-Projekten weiß ich, dass der schwierige Schritt nicht das Finden eines Teils ist, sondern das Zerlegen des Ganzen in seine Teile — und das Wieder-Zusammensetzen zu etwas, das zusammenpasst.

viele Teile

ein Look ist ein Satz Produkte, kein einzelnes Bild

verdeckt

echte Posen verdecken halbe Kleidungsstücke — der Normalfall, nicht die Ausnahme

im Stil

das exakte Teil hast du selten — gesucht ist das nächste im Stil

Ein Look ist kein Bild, sondern ein Satz Teile

Der Reflex ist, das ganze Foto einzubetten und nach Ähnlichem zu suchen. Das liefert Stimmung, keine Produkte — andere Fotos mit ähnlicher Vibe, nicht die Hose. Wer diesen Schritt überspringt, wundert sich, warum die Suche Atmosphäre statt Artikel ausgibt.

Der richtige Weg geht über das Zerlegen. Erst erkennt und trennt ein Modell jedes Kleidungsstück und Accessoire im Bild — Oberteil, Hose, Schuhe, Tasche. Dann wird jedes Teil einzeln zur Suche. Aus einem Bild werden fünf, sechs getrennte Suchen, und erst die ergeben eine kaufbare Liste. Der Look ist die Summe seiner Teile, und genau so muss ihn das System behandeln.

Stil statt exaktem Teil

Der zweite Unterschied zur Einzelteil-Suche: Bei einem Inspirations-Foto hast du das exakte Teil fast nie im Sortiment. Es ist ein fremder Mantel von einer fremden Marke. Gesucht ist also nicht „genau dieser”, sondern „das Nächste im Stil” — ein Mantel mit ähnlichem Schnitt, ähnlicher Länge, ähnlicher Farbe und ähnlichem Material aus deinem Bestand.

Das ist unschärfer als eine exakte Suche, und reine Pixelähnlichkeit reicht dafür nicht. Wie beim Schmuck hilft die Zwischenschicht aus strukturierten Merkmalen: Schnitt, Farbe, Muster, Länge, Material. Über diese Merkmale findet das System „im Stil ähnlich” zuverlässiger als über das nackte Bild — und es bleibt erklärbar, warum ein Teil vorgeschlagen wurde.

Wie ich das angehe

Teile erkennen und freistellen

auf Mode trainiert

▶

Ein modetrainiertes Modell findet jedes Kleidungsstück im Bild und trennt es vom Rest. Ein Standardmodell sieht „Person”, nicht „Blazer, Midirock, Loafer”.

Je Teil Merkmale und Vektor

▶

Für jedes erkannte Teil werden Stil-Merkmale extrahiert und ein Embedding erzeugt. Die Merkmale tragen die Stil-Suche, der Vektor die visuelle.

Je Slot im Katalog suchen

▶

Für jedes Teil die nächsten Treffer im eigenen Sortiment — eine Suche pro Slot, nicht eine für das ganze Bild.

Zu einem stimmigen Look zusammensetzen

mehr als fünf nächste Treffer

▶

Die fünf jeweils nächsten Treffer ergeben nicht automatisch ein Outfit, das zusammenpasst. Der Look wird als Kombination zusammengestellt, nicht als Stapel Einzelsieger.

Redaktionelle Looks kuratiert ein Mensch

Geschmack bleibt menschlich

▶

Bei kuratierten, verkaufswirksamen Looks schlägt das Modell vor, ein Merchandiser entscheidet. Ob etwas „den Look trifft”, ist am Ende auch Geschmack.

Wo es in der Praxis kippt

Verdeckung und Pose. Auf echten Fotos liegt ein Arm über der Jacke, die Tasche verdeckt das Kleid, die Beine sind übereinandergeschlagen. Das Modell sieht Fragmente. Reale Posen sind der Normalfall und der größte Feind der Erkennung.

Die Ganzbild-Falle. Das gesamte Foto einzubetten ist bequem und falsch — es liefert ähnliche Bilder, keine Produkte. Ohne sauberes Zerlegen bekommst du Stimmung statt Sortiment.

Der Kontext drängt sich vor. Straße, Licht, die Person selbst — alles Rauschen, das weg muss. Gesucht wird das Kleidungsstück, nicht die Szene drumherum.

Stimmigkeit. Das je Slot nächste Teil zu nehmen ergibt oft ein Outfit, das nicht funktioniert. Einen Look nachzubauen ist mehr als fünf unabhängige Suchen nebeneinander — es gibt eine Dimension, ob die Teile zusammenpassen.

Sortiments-Abdeckung. Du kannst nur zeigen, was du führst. Ehrlich ist „das Nächste, das wir haben” — und ein klares „dafür haben wir gerade nichts Passendes”, statt einen schlechten Treffer als guten zu verkaufen.

Was es kostet — und woran

Der Hauptaufwand steckt in der modetrainierten Erkennung und dem Freistellen der einzelnen Teile, dazu eine saubere Merkmals-Systematik (Schnitt, Länge, Muster, Material), an der entlang gesucht wird. Beides ist Arbeit vorne, die sich in der Trefferqualität auszahlt.

Der ehrliche Rahmen: Das Ergebnis ist fast nie „exakt dieses Teil”, sondern „das Nächste im Stil”. Wer das als exakte Look-Suche verkauft, weckt eine Erwartung, die das Sortiment nicht halten kann. Gut gemacht ist es ein starker Einkaufs-Assistent, kein Zauberspiegel.

Wo der Mensch dranbleibt

Kuratierte Looks brauchen einen Merchandiser. Für die Looks, die du aktiv bewirbst, entscheidet ein Mensch über die Kombination. Das Modell liefert Vorschläge und Alternativen.

Keine exakte Behauptung. „Im Stil ähnlich” ehrlich kommunizieren, nicht als „das ist es” verkaufen. Eine offene Alternative ist besser als ein falscher Volltreffer.

Das System zerlegt den Look und findet je Teil das Nächste im Stil. Ob die Kombination zusammenpasst und was beworben wird, entscheidet ein Mensch.

Wie ein ehrlicher Einstieg aussieht

Fang nicht mit dem ganzen Outfit an. Nimm eine Kategorie — etwa „finde das Kleid” — und lass das System nur dieses eine Teil aus echten Look-Fotos erkennen und im Katalog suchen. Miss zwei Dinge: Erkennt es das Teil trotz Pose und Verdeckung zuverlässig, und landet ein stilistisch passendes Produkt unter den ersten Treffern? Sitzt das, nimmst du das zweite Teil dazu und irgendwann die Stimmigkeit der Kombination. Ein Slot, der sauber läuft, ist mehr wert als ein ganzer Look, der wackelt.

Worauf du achtest, wenn dir das jemand baut

Zerlegt das System den Look in einzelne Teile, oder bettet es das ganze Bild ein? Ganzbild ist die Stimmungs-Falle und das K.-o.-Kriterium.
Ist die Erkennung auf Mode trainiert und kommt sie mit Verdeckung und Pose zurecht?
Sucht es über Stil-Merkmale, nicht nur über rohe Pixel — und ist es ehrlich bei „im Stil ähnlich” statt „exakt”?
Geht es offen mit Sortiments-Lücken um, statt einen schlechten Treffer zu beschönigen?
Gibt es eine Stimmigkeits- oder Kuratierungs-Stufe für beworbene Looks?

Zum Mitnehmen

Der Schlüssel ist das Zerlegen, nicht die Suche. Mit diesem Prompt machst du aus einem Look die einzelnen, suchbaren Teile:

Du zerlegst einen Look (Bild oder Beschreibung) in einzelne, suchbare Teile.
Ich gebe dir das Outfit.

1. Liste jedes erkennbare Kleidungsstück und Accessoire einzeln (Oberteil, Hose/Rock, Schuhe, Tasche, ...).
2. Beschreibe je Teil die Stil-Merkmale: Art, Farbe, Muster, Schnitt/Länge, Material (soweit erkennbar).
3. Markiere Unsicheres als "[unsicher]" und rate nicht. Erfinde keine Marken oder Artikel.
4. Ist ein Teil verdeckt oder unklar, sag das offen, statt es zu vervollständigen.

Gib je Teil eine Merkmalszeile aus. Das ist die Grundlage, um danach jedes Teil EINZELN im Katalog
zu suchen — der Look ist die Summe der Teile, nicht ein einzelnes Bild.

Du willst, dass Kunden ein Inspirations-Foto hochladen und bei dir den Look nachkaufen können? Dann reden wir über ein, zwei deiner Kategorien — und ich sage dir ehrlich, wo das Zerlegen sauber klappt und wo Sortiment oder Pose dem Ganzen Grenzen setzen.