Moveon

Projekt

Visuelles robustes räumliches Szenenverständnis in dynamischen Umgebungen unter Verwendung von intermediären Darstellungen

Laufzeit:
01.08.2020 - 31.07.2023

Forschungsthemen
Lernende Systeme Autonome Systeme

Anwendungsfelder
Mobilität

Die visuelle 3D-Erfassung einer Szene in Echtzeit und die gleichzeitige Bestimmung der Position und Orientierung der Kamera (6DoF, Freiheitsgrad) im Raum ist eine Kerntechnologie, die in zahlreichen Bereichen wie dem autonomen Fahren, der Robotik oder der Medizintechnik Anwendung findet. Das Ziel des MOVEON-Projekts ist die Entwicklung einer neuartigen Generation von visuellen Positionierungssystemen, die über die klassische Lokalisierung und Kartierung hinausgeht, die sich derzeit nur auf die Rekonstruktion von Punktwolken konzentriert. Im Gegensatz dazu ist es unser Ziel, eine 6DoF-Positionierung und ein globales Szenenverständnis in unkontrollierten und dynamischen Umgebungen (z.B. überfüllten Straßen) zu ermöglichen, die sich mit der Größe der Umgebung gut skalieren lässt und die durch die Wiederverwendung konsistenter Karten über einen längeren Zeitraum hinweg dauerhaft eingesetzt werden kann. MOVEON wird den Stand der Technik im visionsbasierten, räumlich-zeitlichen Szenenverständnis vorantreiben, indem es neuartige maschinelle Lernansätze mit geometrischem Schließen (geometric-reasoning) verbindet. Die auf Deep-Learning basierende Erkennung und das Verständnis von High-Level-Konzepten wie Fluchtpunkten oder großen Objektklassen werden als einheitliche Bausteine für eine räumlich-zeitliche Lokalisierung und die Rekonstruktion der Umgebung dienen, die geometrisches Schließen als zugrundeliegende Unterstützung verwenden wird. Dadurch entstehen „hybride Systeme“, die die Stärke beider Technologien, tiefes Lernen und geometrisches Schließen, vereinen und eine hohe Robustheit sowie hohes Erklärbarkeitspotential (im Gegensatz zu „End-to-End Learning“) besitzen.

The aim of the MOVEON project is to develop a novel generation of visual positioning systems that goes beyond classical localization and mapping, which focuses currently only on point cloud reconstruction. In contrast, our aim is to allow for 6DoF positioning and global scene understanding in wild and dynamic environments (e.g. crowded streets) that scales up nicely with the size of the environment, and that can be used persistently over time by reusing consistent maps. MOVEON will push forward the state of the art in vision-based, spatio-temporal scene understanding by merging novel machine-learning approaches with geometrical reasoning. Deep-learning-based recognition and understanding of high-level concepts such as vanishing points or large object classes will serve as unitary building blocks for a spatio-temporal localization and environment reconstruction that will use geometric reasoning as underlying support.

Partner

Gilles Simon, INRIA Nancy, Team MAGRIT

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

01IS20077

Keyfacts

Beteiligte Forschungsbereiche
Erweiterte Realität
Leitung
Dr.-Ing. Alain Pagani

Publikationen zum Projekt

Fangwen Shu; Jiaxuan Wang; Alain Pagani; Didier Stricker

In: IEEE. IEEE International Conference on Robotics and Automation (ICRA-2023), May 29 - June 2, London, United Kingdom, IEEE, 2023.

Yaxu Xie; Fangwen Shu; Alain Pagani; Jason Rapheal Rambach; Didier Stricker

In: British Machine Vision Conference. British Machine Vision Conference (BMVC-2021), November 22-25, United Kingdom, British Machine Vision Conference, 11/2021.

Fangwen Shu; Paul Lesur; Yaxu Xie; Alain Pagani; Didier Stricker

In: Winter Conference on Applications of Computer Vision. IEEE Winter Conference on Applications of Computer Vision (WACV-2021), January 5-9, Waikoloa Hawaii, USA, IEEE/CVF, 2021.

Alle Publikationen

Visuelles robustes räumliches Szenenverständnis in dynamischen Umgebungen unter Verwendung von intermediären Darstellungen

Partner

Fördergeber

BMBF - Bundesministerium für Bildung und Forschung

01IS20077

Keyfacts

Structure PLP-SLAM: Efficient Sparse Mapping and Localization using Point, Line and Plane for Monocular, RGB-D and Stereo Cameras

PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for Piece-Wise Plane Detection and Reconstruction from a Single RGB Image

SLAM in the Field: An Evaluation of Monocular Mapping and Localization on Challenging Dynamic Agricultural Environment