Advancing Machine Learning Algorithms for Object Localization in Data-Limited Scenarios; Techniques for 6DoF Pose Estimation and 2D Localization with limited Data

Promotion von Thomas Pöllabauer

Kurzmeldung /

Herzlichen Glückwunsch zur Promotion, Dr. Thomas Pöllabauer!

Herzlichen Glückwunsch! Thomas Pöllabauer, Mitarbeiter in der Abteilung »Virtuelle und Erweiterte Realität«, hat am 20. Januar 2025 seine Dissertation »Advancing Machine Learning Algorithms for Object Localization in Data-Limited Scenarios; Techniques for 6DoF Pose Estimation and 2D Localization with limited Data« erfolgreich verteidigt. 

Zusammenfassung

Jüngste Erfolge im Maschinellen Lernen (Machine Learning, ML) haben viele Disziplinen in der Informatik tiefgreifend beeinflusst, insbesondere die Computer Vision (CV). Eine bedeutsame Herausforderung in der CV ist die Aufgabe, gegeben ein Bild eines Objekts, die Position und Orientierung besagten Objekts im 3D-Raum, relativ zum aufnehmen- den Kamerasensor, zu bestimmen. Die akkurate Lösung dieser Aufgabe ist essenziell für Bereiche wie Robotik, Augmentierte Realität (Augmented Reality), autonomes Fahren, Qualitätsinspektion in der Fertigung und viele weitere. Aktuelle Algorithmen zur Posen- schätzung werden von Deep Learning-basierten Ansätzen dominiert. Die Anwendung dieser Algorithmen auf reale Aufgaben wird jedoch oft durch datenspezifische Einschrän- kungen limitiert. Beispiele für diese Einschränkungen sind etwa das Fehlen ausreichender Trainingsdaten, die unzureichende Qualität vorhandener Daten, fehlende oder fehlerhafte Annotationsdaten oder das vollständige Fehlen direkt nutzbarer Trainingsdaten, in der Regel Bilder.

Diese Thesis präsentiert Beiträge sowohl zur 6D-Objektposenschätzung, als auch zum Umgang mit Einschränkungen durch Probleme mit dem Datenbestand, spezifisch für die Anwendung Posenschätzung, als auch angewandt auf verwandte CV-Probleme wie Klassi- fikation, Segmentierung und 2D-Objekterkennung. Sie bietet eine Reihe von Lösungen zur Steigerung der Qualität und Effizienz dieser Aufgaben unter verschiedenen, üblichen Arten von Dateneinschränkungen.

Der erste Beitrag dieser Thesis verbessert einen Posenschätzer am aktuellen Stand der Wissenschaft, indem er anstelle einer einzigen Schätzung der Objektpose eine Wahr- scheinlichkeitsverteilung vorhersagt. Dieser Ansatz ermöglicht es, mehrere plausible Posenkandidaten zur weiteren Verfeinerung zu gewinnen und übertrifft den Basisalgo- rithmus selbst dann, wenn nur die wahrscheinlichste Pose gesampelt wird. In unserem zweiten Beitrag verbessern wir die Laufzeit drastisch und reduzieren die Ressourcenanfor- derungen, um Posenschätzung auf dem Stand der Technik auf stromsparende Edge-Geräte, etwa moderne Augmented und Extended Reality Geräte zu bringen. Schließlich erweitern wir einen Posenschätzer, um zusätzliche Ansichten einzubeziehen, und demonstrieren dessen Leistungsfähigkeit mit Stereoaufnahmen.

Das zweite Set mit zwei Beiträgen konzentriert sich auf die Datengenerierung für ML-basierte CV-Aufgaben. Hochwertige Trainingsdaten sind entscheidend für gute Leistung. Wir stellen ein neuartiges, aber einfaches Setup vor, um physische Objekte aufzunehmen und alle notwendigen Annotationen vollständig automatisiert zu generieren. Wie evaluie- ren am Anwendungsfall der 2D-Objekterkennung und können zeigen, dass unser Ansatz im Vergleich zu viel komplexeren Datengenerierungsprozessen, zum Beispiel reale Auf- nahmen und physikalisch basiertes Rendering, gute Ergebnisse bei drastisch reduziertem Aufwand erzielt. In einem Folgepapier verbessern wir die Ergebnisse weiter, indem wir einen neuartigen Nachbearbeitungsschritt basierend auf denoising diffusion probabilistic models (DDPM) einführen.

An der Schnittstelle von 6D-Posenschätzung und Datengenerierungsmethoden kon- zentriert sich eine letzte Gruppe mit drei Beiträgen darauf, das Datenproblem mit ver- schiedenen Ansätzen zu lösen oder gänzlich zu umgehen. Erstens demonstrieren wir den Einsatz von physikalisch basieretem, fotorealistischem und nicht-fotorealistischem Rendering zur Posenschätzung auf einer Microsoft HoloLens 2, gänzlich ohne reale Bilder zum Training zu nutzen. Zweitens erweitern wir eine Zero-Shot-Posenschätzer durch die zusätzliche Abschätzung von geometrischen Merkmalen und verbessern dadurch die Schätzqualität ohne die Laufzeit nennenswert zu verschlechtern. Drittens zeigen wir die Posenschätzung von Objekten mit unbekannten Erscheinungen basierend auf einer 3D-Szenenrekonstruktion basierend auf Neural Radiance Fields (NeRFs), was eine robuste, 3D-Mesh-freie Posenschätzung ermöglicht.

Zusammenfassend verbessert diese Thesis die Anwendungsfelder der 6D-Objekt- posenschätzung und reduziert den Einfluss einiger gängiger Datenbeschränkungen, für Posenschätzung und ähnliche Machine Learning Algorithmen in Computer Vision Proble- men, wie etwa 2D Objektdetektion und Segmentierung. Die vorgeschlagenen Lösungen beinhalten mehrere Erweiterungen zu aktuellen 6D-Posenschätzern und adressieren die Herausforderungen von begrenzten oder qualitativ schlechten Trainingsdaten, wodurch genauere, effizientere und in einem größeren Feld an Anwendungen nutzbare Posen- schätzalgorithmen für verschiedene Branchen und Anwendungsfelder ermöglicht werden.