Visuelle Qualitätskontrolle am Band: warum »99 % Genauigkeit« nichts über deine Fehler sagt

Wie KI Defekte am Band erkennt — warum Genauigkeit hier in die Irre führt, beide Fehlerarten unterschiedlich teuer sind und der Aufbau zählt mehr als das Modell.

Ein Anbieter sagt dir: „Unser System erkennt Fehler mit 99 Prozent Genauigkeit.” Klingt großartig. Ist aber, bei genauem Hinsehen, fast nichtssagend — und im schlechtesten Fall eine Lüge mit Zahl. Denn wenn von tausend Teilen nur fünf fehlerhaft sind, erreicht ein System 99,5 Prozent Genauigkeit, indem es schlicht jedes Teil für gut erklärt. Es fängt keinen einzigen Fehler und hat trotzdem eine glänzende Quote.

Visuelle Qualitätskontrolle ist anders als die Bildsuche, über die ich an anderer Stelle geschrieben habe. Da ging es ums Finden. Hier geht es um eine Entscheidung: gut oder schlecht, tausendfach am Tag, in Sekundenbruchteilen. Und diese Entscheidung hat Eigenheiten, die man kennen muss, bevor man der Technik ein Teil anvertraut.

selten

Fehler sind die Ausnahme — deshalb führt »Genauigkeit« als Maß in die Irre

2 Fehler

ein durchgerutschter Defekt und ein verworfenes gutes Teil kosten völlig verschieden

der Aufbau

Licht, Halterung und Optik entscheiden mehr als die Wahl des Modells

Warum „99 % Genauigkeit” hier in die Irre führt

Fehler sind selten, und genau das bricht die Genauigkeit als Maßstab. Auf tausend gute Teile kommen ein paar schlechte. Ein Modell, das einfach immer „gut” sagt, liegt fast immer richtig — und ist völlig nutzlos. Die eine Zahl versteckt den einzigen Fall, auf den es ankommt.

Was du stattdessen brauchst, sind zwei getrennte Zahlen. Die Fangquote: Welcher Anteil der echten Fehler wird erkannt? Und die Fehlalarm-Rate: Wie oft wird ein gutes Teil fälschlich aussortiert? Erst diese beiden zusammen sagen, was das System taugt. Wer dir nur „Genauigkeit” nennt, hat entweder das Problem nicht verstanden oder verschleiert es.

Zwei Fehler, die nicht gleich teuer sind

Hier sitzt die eigentliche Ingenieurs-Entscheidung. Ein übersehener Defekt geht an den Kunden — Reklamation, Rückruf, im schlimmsten Fall ein Sicherheitsproblem. Ein Fehlalarm dagegen stoppt die Linie oder verschrottet ein gutes Teil — ärgerlich, aber meist billiger. Die beiden Fehler sind nicht gleich teuer, und deshalb gibt es kein neutrales Optimum.

Du stellst das System auf deine Kosten ein, nicht auf eine schöne Zahl. Sind durchgerutschte Fehler teuer, drehst du die Empfindlichkeit hoch und nimmst mehr Fehlalarme in Kauf. Ist das Aussortieren guter Teile teuer, gehst du behutsamer ran. Diese Schwelle ist eine betriebswirtschaftliche Entscheidung, die ein Mensch trifft — kein Knopf, den das Modell für sich selbst dreht.

Du kannst nicht alle Fehler kennen

Der nächste Defekt ist oft einer, den du noch nie gesehen hast. Wer das System darauf trainiert, bekannte Fehlerarten zu erkennen — Kratzer, Riss, fehlendes Teil —, ist gegen das Unbekannte blind. Deshalb geht der robustere Weg häufig andersherum: Das System lernt, wie ein gutes Teil aussieht, und schlägt bei jeder Abweichung Alarm. So fängt es auch Fehler, für die es nie ein Beispiel gab.

Das hat einen Preis. Weil echte Defekte selten sind, fehlen Beispiele zum Lernen und Prüfen. Da hilft, fehlerhafte Teile gezielt zu erzeugen oder vorhandene Beispiele künstlich zu vervielfältigen — sonst misst du deine Fangquote an einer Handvoll Fälle, was nichts aussagt.

Wie ich das angehe

Die Aufnahme kontrollieren

der unterschätzte Teil

▶

Festes Licht, feste Halterung, fester Abstand, sauberer Auslöser. Konstante Bilder sind die halbe Miete — winzige Defekte sieht man nur bei konstanten Bedingungen.

Das Normale lernen

▶

Dem System zeigen, wie ein gutes Teil aussieht, plus die bekannten Fehler, soweit es welche gibt. Die Abweichung vom Guten ist der Anker.

Abweichungen markieren — kostengerecht

Schwelle nach Geschäftskosten

▶

Die Empfindlichkeit wird nach deinen Kosten eingestellt, nicht nach einer Laborzahl. Was ist teurer: ein durchgerutschter Fehler oder ein verworfenes gutes Teil?

Grenzfälle prüft ein Mensch

besonders am Anfang

▶

Unsichere Fälle gehen an einen Menschen, statt blind sortiert zu werden. Gerade in den ersten Wochen ist das Pflicht.

Bestätigungen zurückspeisen

▶

Die menschlichen Urteile fließen zurück und machen das System mit der Zeit treffsicherer. Ohne diese Schleife lernt es nicht dazu.

Wo es in der Praxis kippt

Die Demo lief auf sauberen Daten. Im Vorführraum erkennt es jeden Fehler. An der echten Linie kommen Staub, Vibration, wechselndes Umgebungslicht dazu — und die Quote fällt. Was zählt, ist die Leistung an deiner Linie, nicht im Datensatz des Anbieters.

Drift. Eine neue Charge, eine andere Beleuchtung, eine alternde Kamera — und das System wird still schlechter, ohne dass jemand es merkt. Die Bedingungen gehören überwacht, sonst vertraust du irgendwann einem System, das nicht mehr das prüft, was es soll.

Tempo. Die Prüfung muss mit der Linie Schritt halten. Das drückt oft zur Auswertung direkt an der Maschine statt in der Cloud — eine Architekturentscheidung, die früh fällt, nicht am Ende.

Der Aufbau ist die eigentliche Arbeit. Das Modell ist selten das Schwierige. Licht, Halterung, Optik, die Einbindung in die Linie — daran entscheidet sich, ob überhaupt etwas funktioniert. Wer nur über das Modell redet, hat den Großteil des Projekts ausgelassen.

Was es kostet — und woran

Der größte Posten ist der Aufbau an der Linie: Beleuchtung, Halterung, Optik, Auslöser, Integration. Das ist Maschinenbau und Optik, nicht nur Software, und es bestimmt die Qualität mehr als jedes Modell. Dazu kommt das Daten-Problem: Weil Defekte selten sind, steckt Aufwand darin, genug Beispiele zu bekommen oder zu erzeugen.

Laufend: Die Bedingungen gehören überwacht, und bei neuen Teilen oder Chargen wird nachgezogen. Wer dir „Kamera dran, fertig” verspricht, hat den Aufbau, das Daten-Problem und die Überwachung unterschlagen — also fast das ganze Projekt.

Wo der Mensch dranbleibt

Sicherheitskritisches nicht blind verwerfen oder durchlassen. Wo ein Fehler gefährlich wird, bleibt eine menschliche oder zweite Prüfung im Spiel. Eine einzelne Kamera entscheidet nicht allein über ein Teil, das Menschen gefährden kann.

Keine einzelne Zahl glauben. Fangquote und Fehlalarm-Rate getrennt, gegen die echten Kosten. „Genauigkeit” allein ist kein Beleg.

Die Schwelle ist eine Geschäftsentscheidung. Wie streng geprüft wird, richtet sich nach den Kosten beider Fehler — das legt ein Mensch fest, nicht das Modell.

Das System sortiert vor und meldet Abweichungen. Wie streng es prüft und was mit einem zweifelhaften Teil geschieht, entscheidet ein Mensch — nach den echten Kosten, nicht nach einer Quote.

Wie ein ehrlicher Einstieg aussieht

Nimm genau einen Fehlertyp an einem Teil und kontrolliere die Aufnahme sauber. Lass das System Abweichungen melden, während ein Mensch die Grenzfälle bestätigt. Miss Fangquote und Fehlalarm-Rate getrennt — nicht Genauigkeit — und setz die Schwelle nach der ehrlichen Frage: Was kostet ein durchgerutschter Fehler beim Kunden gegen ein verworfenes gutes Teil? Wenn die Fangquote bei vertretbaren Fehlalarmen überzeugt, hast du den Beweis. Erst dann lässt du es selbst sortieren.

Worauf du achtest, wenn dir das jemand baut

Nennt der Anbieter Fangquote und Fehlalarm-Rate getrennt — oder verkauft er dir „Genauigkeit”? Letzteres ist das Warnsignal.
Kann das System unbekannte Fehler fangen (Abweichung vom Guten), oder nur die antrainierten?
Nimmt er Licht, Halterung und Optik ernst, oder redet er nur über das Modell?
Lässt sich die Schwelle nach Kosten einstellen, statt fix vorgegeben zu sein?
Gibt es eine Überwachung gegen Drift und eine menschliche Prüfung für kritische Fälle?

Zum Mitnehmen

Bevor du an Technik denkst, setz den Pilot richtig auf. Diese Schritte verhindern, dass du die falsche Zahl misst:

Pilot-Setup für eine Sicht-Prüfung (ein Fehlertyp, ein Teil):
1. Definiere GENAU einen Fehlertyp an einem Teil (z. B. Kratzer auf der Oberfläche).
2. Kontrolliere die Aufnahme: festes Licht, feste Halterung, fester Abstand. Gleiche Bilder, immer.
3. Sammle Beispiele: viele gute Teile, so viele schlechte wie möglich (selten -> ggf. erzeugen/augmentieren).
4. WÄHLE DIE METRIK NACH KOSTEN, nicht "Genauigkeit":
   - Fangquote: welcher Anteil der echten Fehler wird erkannt?
   - Fehlalarm-Rate: wie oft wird ein gutes Teil fälschlich aussortiert?
5. Setze die Schwelle nach den Geschäftskosten: Was kostet ein durchgerutschter Fehler beim Kunden
   gegenüber einem fälschlich verworfenen guten Teil? Danach richtet sich, wie streng du einstellst.
6. Lass am Anfang einen Menschen die Grenzfälle bestätigen, bevor das System selbst sortiert.

Bei dir rutschen ab und zu Fehler durch, oder die Sichtprüfung bindet zu viel Personal? Dann reden wir über genau einen Fehlertyp an einem Teil — und ich sage dir ehrlich, was der Kameraaufbau kostet und ab welcher Fangquote sich das gegen einen durchgerutschten Fehler beim Kunden rechnet.