Automation for camera-only 6D object detection

Heutzutage ist eine allgemeine Bereitstellung von Augmented Reality (AR) Systemen nur mithilfe Computer Vision Frameworks wie ARKit und ARCore möglich, welche von spezifischen Endgeräten abstrahieren, allerdings gleichzeitig die Auswahl auf den jeweiligen Hersteller einschränken. In seiner Arbeit untersucht Pavel Rojtberg, wie die Bereitstellung von AR-Systemen auf jedem Gerät mit angeschlossener Kamera ermöglicht werden kann.

© Fraunhofer IGD
Herzlichen Glückwunsch, Dr.-Ing. Pavel Rojtberg!

Pavel Rojtberg, wissenschaftlicher Mitarbeiter in der Abteilung »Virtual and Augmented Reality« hat seine Dissertation am 21. April 2021 erfolgreich verteidigt - herzlichen Glückwunsch!

Die öffentliche Verteidigung der Dissertation zum Thema »Automation for camera-only 6D object detection« fand am 21. April im Fraunhofer IGD in Darmstadt und online statt. Betreuer der Arbeit waren Prof. Dr. Arjan Kuijper (TU Darmstadt), Prof. Dr. techn. Dieter W. Fellner (TU Darmstadt) sowie Prof. Dr. Didier Stricker (TU Kaiserslautern).

Abstract

Ein entscheidender Teil eines AR-Systems ist die Detektion von beliebigen Objekten im Kamerabild und damit einhergehend die Schätzung ihrer 6D-Pose.
Dies ist notwendig, um das Verständnis der Szene zu verbessern, welches AR-Anwendungen erfordern, um Augmentierungen in der realen Welt zu platzieren. Derzeit ist dies durch eine grobe Segmentierung der Szene in Ebenen begrenzt, welche durch die oben genannten Frameworks bereitgestellt wird.

Einzelne Objekte zuverlässig erkennen zu können, ermöglicht es spezifische Augmentierungen anzubringen, was z.B. bei AR-Wartungsanwendungen notwendig ist. Hierzu verwenden wir Convolutional Neural Networks (CNNs), um die 6D-Pose aller sichtbaren Objekte aus einem einzigen RGB-Bild abzuleiten. Hierbei behandeln wir das Problem des automatisierten Trainings der jeweiligen CNN-Modelle, nur ausgehend von der CAD-Geometrie des Zielobjekts.
Zunächst betrachten wir die Rekonstruktion der fehlenden Oberflächendaten in Echtzeit, bevor wir uns dem allgemeineren Problem der Überbrückung der „Domänen-Diskrepanz“ zwischen der nicht fotorealistischen Darstellung und dem Erscheinungsbild in der realen Welt zuwenden. Zu diesem Zweck bauen wir auf generativen CNN-Modellen (Generative Adversarial Network) auf, um die „Domänen-Diskrepanz“ als unbeaufsichtigtes Lernproblem zu formulieren. Unsere Auswertung zeigt eine Verbesserung der Modellleistung bei vereinfachter Handhabung gegenüber vergleichbaren Lösungen.

Weiterhin müssen die Kalibrierungsdaten der verwendeten Kamera bekannt sein, um eine genaue Posenschätzung zu erzielen. Diese Daten sind aber wiederum nur für die firmeneigenen Geräten der jeweiligen Frameworks verfügbar. Um diese Einschränkung aufzuheben, schlagen wir einen webbasierten Kamerakalibrierungsdienst vor, welcher nicht nur Kalibrierungsdaten aggregiert, sondern auch Benutzer bei der Kalibrierung neuer Kameras unterstützt.
Hierfür stellen wir zunächst ein neuartiges Framework für die Auswahl von Kalibrierungsposen vor, welches die Anzahl der erforderlichen Kalibrierungsbilder im Vergleich zu vorhandenen Lösungen um 30 % reduziert und gleichzeitig ein wiederholbares und zuverlässiges Kalibrierungsergebnis gewährleistet.
Anschließend präsentieren wir eine Auswertung verschiedener Benutzerführungsstrategien, anhand derer eine für die meisten Benutzer geeignete Einstellung ausgewählt werden kann. Auf diese Weise können auch unerfahrene Benutzer in ca. 2 Minuten eine präzise Kamerakalibrierung durchführen. Schließlich schlagen wir eine effiziente Client-Server-Architektur vor, um die oben genannten Benutzerführung im Web bereitzustellen und sie einer möglichst breiten Palette von Geräten zur Verfügung zu stellen. Dieser Dienst ist nicht auf AR-Systeme beschränkt, sondern ermöglicht die allgemeine Bereitstellung von Computer-Vision-Algorithmen im Web, welche Kamerakalibrierungsdaten benötigen, was bisher nicht möglich war.

Diese Elemente zusammen ermöglichen eine halbautomatische Bereitstellung von AR-Systemen welche auf beliebigen Kameras, beliebige Objekte erkennen können.