Pose estimation with event camera

Ahmed Tabia

Résumé

Camera pose is used to describe the position and orientation of a camera in an absolute coordinate system, with reference to six degrees of freedom. Estimating the camera pose is essential in various application domains, such as augmented reality, robotic navigation, and autonomous vehicles.These fields rely on camera pose for subsequent calculations, such as object localization and scene perception.Estimating the pose of a camera presents challenges in different scenarios; poor lighting conditions, including extreme darkness or brightness, limit the effectiveness of most feature-based methods. These unfavorable lighting conditions hinder precise feature detection and matching, thereby affecting the accuracy of camera pose estimation. Scenes lacking distinct textures complicate the extraction of meaningful keypoints, while rapid motion leads to motion blur, affecting image quality and pose estimation accuracy.Most of these challenges encountered in camera pose estimation are largely related to the nature of traditional cameras, which capture the world as a series of static images taken successively at a rapid pace. In cases where these difficulties are particularly pronounced, event-based cameras offer potential advantages.Event-based cameras are bio-inspired sensors that mimic the functioning of the human retina, capturing changes in pixel intensity rather than recording full images at a fixed rate, as traditional frame-based cameras do.This thesis focuses on estimating the pose of event-based cameras and aims to explore the application of deep learning methods for pose estimation and relocalization based on these cameras, leveraging their unique properties such as high temporal resolution, low latency, and wide dynamic range.The thesis makes several contributions to the field of event-based camera pose estimation using deep learning techniques. These contributions can be summarized as follows:• The thesis provides a comprehensive overview of foundational information and related work, thus establishing a solid foundation and contextual understanding of event-based camera pose estimation.• The thesis explores and develops specialized deep learning approachestailored to event-based camera pose estimation. These techniques harness the power of deep learning to accurately estimate camera pose using event data.• The thesis introduces methods to project event data into image-like data, facilitating the application of dedicated deep learning approaches.This projection process allows for efficient use of event data in the camera pose estimation task.• The thesis proposes a novel approach that directly applies deep learning techniques to raw event data, treating them as a point cloud rather than converting them into images. This approach leverages the entirety of information captured by the event-based camera and enables an end-to-end learning process.

La pose de la caméra est utilisée pour décrire la position et l'orientation d'une caméra dans un système de coordonnées absolu, en référence à six degrés de liberté. L'estimation de la pose de la caméra est essentielle dans divers domaines d'application, tels que la réalité augmentée, la navigationrobotique et les véhicules autonomes.Ces domaines exploitent la pose de la caméra pour des calculs ultérieurs, comme la localisation des objets et la perception de la scène.Estimer la pose d'une caméra présente des défis dans différents scénarios ; les conditions d'éclairage médiocres, y compris une obscurité ou une luminosité extrêmes, limitent l'efficacité de la plupart des méthodes basées sur des caractéristiques. Ces conditions d'éclairage défavorablesentravent la détection et la correspondance précises des caractéristiques, affectant ainsi la précision de l'estimation de la pose de la caméra.Les scènes manquant de textures distinctes compliquent l'extraction de points clés significatifs, tandis que le mouvement rapide entraîne un flou cinétique, nuisant à la qualité de l'image et à la précision de l'estimation de la pose.La plupart de ces défis rencontrés dans l'estimation de la pose de la caméra sont largement liés à la nature des caméras traditionnelles, qui capturent le monde sous forme d'une série d'images fixes, prises successivement à un rythme rapide. Dans les cas où ces difficultés sont particulièrement prononcées, les caméras événementielles offrent des avantages potentiels.Les caméras événementielles sont des capteurs bio-inspirés qui imitent le fonctionnement de la rétine humaine, en capturant les changements d'intensité des pixels plutôt que d'enregistrer des images complètes à un taux fixe, comme le font les caméras traditionnelles basées sur des trames.Cette thèse se concentre sur l'estimation de la pose des caméras événementielles et vise à explorer l'application de méthodes d'apprentissage en profondeur pour la pose et la relocalisation basées sur ces caméras, en tirant parti de leurs propriétés uniques telles que la haute résolution temporelle, la faible latence et la large plage dynamique.La thèse apporte plusieurs contributions au domaine de l'estimation de la pose de caméra événementielle en utilisant des techniques d'apprentissage profond. Ces contributions peuvent être résumées comme suit :• La thèse fournit un aperçu complet des informations de base et des travaux connexes, établissant ainsi une base solide et une compréhension contextuelle de l'estimation de la pose de caméra événementielle.• La thèse explore et développe des approches spécialisées d'apprentissage profond adaptées à l'estimation de la pose de caméra événementielle. Ces techniques exploitent la puissance de l'apprentissage profond pour estimer avec précision la pose de la caméra à l'aide dedonnées événementielles.• La thèse introduit des méthodes pour projeter les données événementielles en données semblables à des images, facilitant l'application d'approches dédiées d'apprentissage profond. Ce processus de projection permet une utilisation efficace des informations événementielles dans la tâche d'estimation de la pose de la caméra.• La thèse propose une nouvelle approche qui applique directement des techniques d'apprentissage profond aux données événementielles brutes, les traitant comme un nuage de points plutôt que de les convertir en images. Cette approche exploite l'ensemble des informations capturées par la caméra événementielle et permet un processus d'apprentissage de bout en bout.

Pose estimation with event camera

Estimation de la pose avec une caméra évènementielle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager