Unsere Reise begann mit der Sammlung und dem Test von Datensätzen. Um unsere Modelle effektiv zu trainieren, benötigen wir viele verschiedene Bilder. Bilder können aus Browsern, Apps oder jeder anderen Plattform für die spätere Verwendung im Modelltraining abgerufen werden, obwohl die Erforschung der Bilddatenbeschaffung noch aussteht.
Nachdem alle Bilder gesammelt wurden, ist der nächste entscheidende Schritt die Beschriftung. Wir verwenden das Open-Source-Tool Computer Vision Annotation Tool (CVAT), ein webbasiertes Tool zur Annotation von Bildern und Videos. Dieser Schritt ist zeitaufwendig, aber absolut unerlässlich. Zunächst konzentrierten wir uns auf die Entwicklung eines generischen Modells, das 47 Objekte erkennen kann. Wir beschrifteten etwa 1300 Bilder mit mehreren Objekten in jedem Bild, um Präzision zu gewährleisten und menschliche Fehler auszuschließen.
Anschließend entwickelten wir spezialisierte Testszenarien und beschrifteten nur Objekte mit benutzerdefinierten Namen, die für bestimmte Testbedürfnisse relevant waren. Die Anzahl der Bilder hängt von dem konkreten Testszenario ab. Das zweite Modell, das auf spezifische Szenarien zugeschnitten ist, erreicht eine bemerkenswerte Genauigkeit (nahezu 99%) und übertrifft den ersten Ansatz mit 83%
Mit den beschrifteten Daten beginnt die Trainingsphase unter Verwendung der YOLO-Architektur. YOLO (You Only Look Once) ist ein Objekterkennungsalgorithmus, der ein einzelnes neuronales Netzwerk verwendet, um Begrenzungsrahmen und Klassenwahrscheinlichkeiten für Objekte in einem Bild vorherzusagen.
Die Ergebnisse? Beeindruckende Genauigkeitsergebnisse, nahtlose Objekterkennung und ein Framework, das die Welt von Web- und App-Tests revolutionieren wird.