KI Showcase - Objekterkennung am Beispiel von Obst

In den letzten Jahren ist es viel einfacher geworden, schlanke Anwendungen zu entwickeln, die Objekte mit einfachster Hardware visuell erfassen und identifizieren können, z. B. mit einer Webcam als Hauptkamera. In diesem Artikel wird ein simpler, aber flexibler Ansatz für die Realisierung einer solchen Lösung erläutert.

Sophia Giraldo — Working Student (Data Science)

17. Juli 2024

Es gibt viele Anwendungsfälle für die Erfassung und Identifizierung von Objekten. Wenn beispielsweise eine Produktentwicklungsabteilung ein Produkt auf der Grundlage bekannter Probleme früherer Generationen, wie häufig auftretende Schäden, verbessern möchte, ist es wichtig, einen guten Überblick und Wissen über diese Schäden zu haben. Es ist jedoch sehr zeitaufwändig und fehleranfällig, von jedem Produkt, das von Kunden zurückgeschickt wird, Fotos zu machen und diese Informationen fehlerfrei zuzuordnen und zu speichern. Ein sinnvoller Ansatz ist daher, die sichtbare Abweichung (den Defekt) automatisch zu erkennen und alle anderen bekannten relevanten Metadaten (z. B. Alter des Produkts, Branche, in der das Produkt verwendet wurde, Datum der Inspektion) zu speichern. Auf diese Weise wird der Prozess erheblich vereinfacht und effizienter, wodurch Fehler bei der Datenerfassung reduziert werden. Folglich ist es einfacher, eventuelle Schwachstellen der Produkte zu erkennen und zu verbessern.

Die Beweggründe für die Durchführung von Bilderkennungsprojekten sind im Allgemeinen die aktuellen Themen der Gegenwart: Wartung, Effizienz, Beweisführung, Digitalisierung.

Unser Ansatz beinhaltet die Klassifizierung, Segmentierung und Beschriftung von Bildern. Durch die Verwendung verschiedener Methoden und Techniken des maschinellen Lernens bieten wir eine kostengünstige (in Bezug auf Rechen- als auch Entwicklungszeit) Lösung. Dadurch entsteht eine robuste und effiziente Lösung, die lokal und ohne zusätzliche Kosten pro verbrauchter Zeit eingesetzt werden kann. Darüber hinaus kann diese Lösung leicht angepasst werden, indem das Wissen über den Algorithmus innerhalb eines sehr kurzen Zeitraums erweitert wird, und das wiederum sehr effizient. Letztlich handelt es sich um ein leistungsfähiges Werkzeug für die automatisierte Bildanalyse.

In diesem Artikel verwenden wir einen branchenfremden Anwendungsfall als Beispiel. Warum? Wie wir alle wissen, sind der Datenschutz und der Schutz des geistigen Eigentums ein wichtiges Thema. Daher können Bilder und alle anderen Daten aus dem industriellen Kontext nicht freigegeben/veröffentlicht werden. Was verwenden wir dann? Früchte! Wir erfassen, wo sich die Frucht befindet und um welche Frucht es sich handelt - der Anwendungsfall kann jedoch leicht geändert werden, wie Sie feststellen werden.

Anwendungsfall: Erkennung von Obst

Der Obstdetektor demonstriert eine vollständige fotobasierte Erkennung und Klassifizierung. Das Dashboard zeigt die Ergebnisse an und ermöglicht es, die erkannten Obstsorten zu bestätigen oder zu ändern. Im Kern besteht die Lösung aus einem vortrainierten neuronalen Netz. Dieses kann für den jeweiligen Anwendungsfall, in diesem Fall die Erkennung von Obst, weiter trainiert werden. Der Datensatz für das Training für diesen Demonstrator wurde von unseren Experten erstellt und besteht aus 360 Bildern von verschiedenen Obstkombinationen. Zum Betrieb genügt ein Standardcomputer mit einer normalen Webcam, und für die Erkennung ist keine Internetverbindung erforderlich.

Der Demonstrator: Schritte und Komponenten

Datensatzvorbereitung:
- Ausgewählte Klassen: Apfel 🍎, Banane 🍌, Weintraube 🍇, Zitrone 🍋, Mango 🥭, Birne 🍐, Erdbeere 🍓 und Orange 🍊
- Aufbau des Datensatzes: einzelnes Foto (1 Klasse) für verschiedene (drei bis vier) Blickwinkel, zwei oder mehr Klassen pro Bild mit unterschiedlichen Blickwinkeln (nicht überschneidend und überschneidend)
- Annotation (in AI Custom Vision) Training: Azure AI Custom Vision ist ein Dienst, mit dem wir unser eigenes Bilderkennungsmodell erstellen, einsetzen und verbessern können. Es verwendet einen Algorithmus für maschinelles Lernen, um Bilder zu analysieren. Der Algorithmus trainiert mit dem von uns bereitgestellten Datensatz und berechnet 3 Statistiken: Präzision, Recall und mAP.
- Genauigkeit: Wie wahrscheinlich ist es, dass das Modell die richtige Klasse vorhersagt.
- Recall: Welchen Prozentsatz hat das Modell von unserer entsprechenden Beschriftung gefunden.
- mAP (mittlere durchschnittliche Genauigkeit): Gesamtleistung der Objekterkennung über alle unsere Beschriftungen hinweg. Voraussetzungen: Menge der Bilder für das Training des Erkennungsmodells (mehr als 50 Bilder pro Klasse). Berücksichtigung visueller Variationen, wie z. B. Winkel, Beleuchtung, Hintergrund, einzeln/ gruppiert, Größe und andere. Die Ressourcen für Custom Vision Training und Vorhersage müssen vorhanden sein.
Dashboard: Das Dashboard unseres Systems bietet einen umfassenden Überblick über die verschiedenen Funktionen und Module, die den Benutzern zur Verfügung stehen. Der folgende Abschnitt führt durch die verschiedenen Ansichten. Mit dem Menüpunkt Obsterkenner kann der Benutzer ein Bild aufnehmen, das dann mit den erkannten Objekten und den entsprechenden vorhergesagten Klassen visualisiert wird. Es werden Punkte angezeigt, die es dem Benutzer ermöglichen, die Anzahl der tatsächlich vorhandenen Objekte zu kommentieren und die Daten zu speichern. Im Abschnitt Hintergrund wird eine kurze Beschreibung der technischen Details der Implementierung des Demonstrators angeboten. Unter Tainingsfotos werden Beispiel-Trainingsfotos angezeigt, um dem Benutzer eine Vorstellung vom Trainingsdatensatz zu geben, und unter Verlauf werden die letzten zehn aufgenommenen Bilder angezeigt. Der Menüpunkt Statistik vergleicht die Modellvorhersagen mit den tatsächlichen Werten und Histogramm zeigt die Häufigkeit der Vorhersagen im Vergleich zu den tatsächlichen Werten für jede Obstsorte. Das Kuchendiagramm visualisiert den Fehlklassifizierungsverlust für jede Frucht, wobei größere Bereiche eine schlechtere Klassifizierung anzeigen. Schließlich beschreibt der Abschnitt Kontakt kurz, was unser Data-Science-Team tun kann, und ermutigt die Benutzer, sich für potenzielle zukünftige Projekte an uns zu wenden.
Speicherung: SQlite → Speicherung der vorhergesagten und der tatsächlichen Anzahlen für jede Klasse. (Zweck: Visualisierung von Statistiken)
Architektur: Der Datensatz wird an Custom Vision übergeben und vor der Durchführung des Trainings gelabelt. Nach dem Training wird das Modell als TensorFlow-Modell exportiert. Die Benutzeroberfläche, in der die Früchte erkannt werden, ist in Streamlit implementiert. Schließlich werden die Vorhersagestatistiken für zukünftige Analysen in einer SQLite-Datenbank gespeichert.

Zusammenfassung der Vorteile

Zusammenfassend haben wir festgestellt, dass eine Lösung wie diese nützlich ist, denn sie:

Steigert die Effizienz: Automatisiert die Erfassung und Identifizierung von Objekten, spart Zeit und reduziert Fehler.
Erhöht die Genauigkeit: Bietet eine zuverlässige Identifizierung und Klassifizierung.
Reduziert Kosten: Arbeitet lokal ohne laufende Kosten.
Ist anpassungsfähig und skalierbar: Lässt sich leicht für verschiedene Anwendungen umtrainieren.
Erleichtert die Datensammlung: Erfasst und speichert automatisch relevante Metadaten zur Analyse und Verbesserung.

Fun Facts:

In 95 % der Fälle wird der Kopf eines Menschen als Mango erkannt 🥭.
Die Erstellung eines Datensatzes kann sehr kreativ werden, wenn man sich alle Kombinationen von Winkeln, Perspektiven, Lichtern und Hintergründen innerhalb des Bildobjekts überlegt.
Unser Demonstrator ist auf dem Forum Digitale Technologien in Berlin ausgestellt, so dass Sie ihn selbst ausprobieren können.

Hintergrund: Warum wurde dies angestoßen?

Im Rahmen des Projekts Service Meister, einem vom BMWK geförderten KI-Forschungsprojekt, realisierten grandcentrix und Würth ein bildbasiertes Defekterkennungssystem für Elektrowerkzeuge, die z. B. durch Stürze sichtbar beschädigt sind. Die Idee ist, dass ein Benutzer mit einer browserbasierten Anwendung interagiert. Um zu demonstrieren, wie einfach eine solche Lösung verallgemeinert und für eine völlig andere Anwendung genutzt werden kann, stellen wir die Lösung für die Erkennung von verschiedenen Obstsorten zur Verfügung. Die Hauptmotivation dieses Demonstrators ist es, zu zeigen, dass die Herausforderung, Bilderkennung adäquat anzuwenden, in den letzten Jahren viel kleiner geworden ist. Vorhandene, vortrainierte Modelle können verwendet und für die jeweilige Anwendung weiter trainiert werden. Für bestimmte Anwendungen können bereits 50 Trainingsbilder pro neu zu identifizierender Objektklasse ausreichend sein. Wie viele Trainingsbilder für eine ausreichende Leistung erforderlich sind, hängt natürlich von vielen Faktoren ab, z. B. von der Gleichmäßigkeit des Bildhintergrunds, dem Rauschpegel des Bildes, der Ähnlichkeit der verschiedenen Objekte von Interesse und den Genauigkeitsanforderungen des Modells im jeweiligen Anwendungsfall.

We are grandcentrix. We make IoT happen.