Improving the Efficiency of Point Cloud Data Management
Promotion von Pascal Bormann
Herzlichen Glückwunsch! Pascal Bormann, Mitarbeiter in der Abteilung »Geoinformationsmanagement«, hat am 08. Mai 2024 seine Dissertation »Improving the Efficiency of Point Cloud Data Management« erfolgreich verteidigt. Referenten der Arbeit waren Prof. Dr. Alexander Reiterer (Universität Freiburg/Fraunhofer IPM) und Prof. Dr.-Ing. Dieter W. Fellner (TU Darmstadt/Fraunhofer IGD).
Kurzfassung
Die Größe und Menge von Punktwolken-Datensätzen, welche durch verschiedene Verfahren generiert werden, ist im letzten Jahrzehnt stark gewachsen. Datensätze mit Milliarden oder sogar Billionen von Punkten sind keine Seltenheit mehr. Moderne Verfahren ermöglichenden interaktiven Umgang mit verschiedensten Geodaten. Um die Arbeit mit Punktwolken im gleichen Maße zu ermöglichen, bedarf es ausgefeilter Datenhaltungs-Lösungen. Hierbei kommen aktuell zeit- und rechenintensive Verfahren zum Einsatz, welche Punktwolkendaten strukturieren und in optimierte Formate bringen. Dabei kommt es zu langen Wartezeiten in der Aufbereitung und häufig zur Duplikation der Daten, da viele dieser optimierten Formate domänen- oder anwendungsspezifisch sind. In der Entwicklung von Anwendungen auf Basis von Punktwolken ist daher eine effiziente Datenhaltung eine der großen Herausforderungen.
Auch wenn Datenbanken nach wie vor eine Nischenlösung in der Datenhaltung von Punktwolken sind, so lässt sich die Interaktion zwischen Anwendungen und der Datenhaltung analog zu Datenbank-Abfragen darstellen. Basierend auf dieser Beobachtung lassen sich die aktuellen Ansätze zur Punktwolken-Datenhaltung anhand von drei Kriterien bewerten: Die Antwortzeit, der Durchsatz, und die Ausdruckskraft von Punktwolken-Abfragen. Unser Beitrag zum aktuellen Stand der Forschung sind Verbesserungen dieser drei Kriterien für zwei gängige Datenhaltungs-Ansätze: Das Arbeiten mit Rohdaten sowie die Indexierung von Punktwolken.
Im Bereich der Arbeit mit Rohdaten führen wir das Konzept der Ad-hoc Abfragen ein und zeigen, dass moderne Hardware effizient genug ist, um viele gängige Abfragen in kurzer Zeit und ohne Vorverarbeitung durchführen zu können. Im Vergleich zu typischen Indexierungsprozessen oder einem Datenbank-Import können Ad-hoc Abfragen die Antwortzeit deutlich verbessern. Mit Hilfe spaltenbasierter Datenformate ist dabei ein Durchsatz von über 100 Millionen Punkten pro Sekunde möglich. Weiterhin demonstrieren wir, dass adaptive Indexierung die Antwortzeiten bestimmter Abfragen um bis zu einer Größenordnung verringern kann. Eine umfangreiche Evaluation von Ad-hoc Abfragen demonstriert deren Machbarkeit und zeigt den Zusammenhang zwischen Datendurchsatz und Antwortzeit auf.
Im Bereich indexierter Punktwolken verbessern wir die Laufzeit aktueller Indexierungs-Algorithmen. Basierend auf dem task-parallel programming Ansatz und Morton Indizes haben wir Schwarzwald entwickelt, ein System zur schnellen Berechnung eines für die Visualisierung optimierten Index. Zum Zeitpunkt der Erstveröffentlichung war Schwarzwald bis zu 9 mal schneller beim Erstellen eines gleichwertigen Index verglichen mitbestehenden Lösungen. Die Laufzeit der schnellsten aktuell verfügbaren Out-Of-Core Indexer ist vergleichbar zu der von Schwarzwald, wie wir in mehreren Testreihen belegen. Wir demonstrieren außerdem, dass der zugrundeliegende Algorithmus von Schwarzwald für die verteilte Verarbeitung in der Cloud adaptiert werden kann, was zu besserer Skalierbarkeit und bis zu dreimal kürzeren Laufzeiten verglichen mit bestehenden Systemen führt.
Zur weiteren Reduktion von Wartezeiten demonstrieren wir außerdem das erste echtzeitfähige Indexierungs-System für Punktwolken, welches eine Indexierung direkt während der Aufnahme am LiDAR Sensor ermöglicht. Die Verwendung unseres Echtzeit-Indexers reduziert dabei die Wartezeit von der Aufnahme bis zur Nutzung der Daten um mehrere Größenordnungen in den Bereich unterhalb einer Sekunde. Unsere Verbesserungen verringern bestehende Wartezeiten in der Vorverarbeitung signifikant und erhöhen somit die Effizient in der Punktwolken-Datenhaltung.