Une avancée en localisation basée uniquement sur caméra réduit la dérive jusqu’à 95 % sans GNSS ni LiDAR

Une équipe de recherche de l’Université de Wuhan et de l’Université de Chongqing a présenté un cadre de localisation basé uniquement sur caméra qui améliore considérablement la précision du positionnement dans des environnements où les signaux GNSS ne sont pas disponibles. Le système repose sur une caméra monoculaire associée à une carte de nuage de points colorée préconstruite, permettant de réduire l’erreur absolue de trajectoire de 52 à 95 pour cent par rapport aux approches de référence actuelles.

Les résultats, publiés dans la revue Satellite Navigation, s’attaquent directement à l’un des problèmes les plus persistants de l’odométrie visuelle, l’accumulation de dérive à long terme. Il s’agit de la principale limitation qui a empêché les systèmes monoculaires d’être largement fiables dans les applications de navigation de précision.

La cartographie à double parcimonie réduit le calcul tout en améliorant la qualité de correspondance

Le système introduit un concept de double parcimonie qui fonctionne à la fois au niveau de la carte et à l’exécution. Lors de la préparation hors ligne, les cartes denses basées sur LiDAR sont filtrées afin de ne conserver que les caractéristiques à forte valeur, avec des gradients marqués et une forte distinctivité visuelle. À l’exécution, les données issues de la caméra sont traitées selon la même logique, garantissant que seules les informations pertinentes sont utilisées pour la localisation.

Cette association sélective entre les points de la carte et les caractéristiques de l’image réduit la charge de calcul tout en améliorant la fiabilité de la correspondance. En pratique, cela permet d’éviter les modes d’échec courants observés dans les systèmes traditionnels de localisation visuelle, en particulier dans les environnements répétitifs ou à faible texture.

L’optimisation hiérarchique stabilise l’estimation de la pose

La chaîne de localisation combine plusieurs étapes de raffinement. Le suivi des caractéristiques est assuré par flux optique, tandis qu’un filtrage de visibilité garantit que seuls les points pertinents de la carte sont pris en compte depuis le point de vue courant. Le système applique ensuite un processus d’optimisation en deux étapes basé sur un filtre de Kalman à état d’erreur.

Dans un premier temps, une étape d’alignement géométrique fournit une estimation globale approximative de la pose. Elle est suivie d’un raffinement photométrique basé sur la cohérence de l’intensité de l’image, permettant d’atteindre une précision subpixel. Cette approche en couches permet au système de rester stable même dans des scènes où les méthodes purement géométriques échouent.

Les résultats de tests montrent des gains importants par rapport aux méthodes existantes

Les tests réalisés sur les jeux de données R3live et WHU Motion montrent des améliorations significatives des performances. Dans une séquence, l’erreur de trajectoire est passée de 1.883 mètre à seulement 0.152 mètre. Dans des conditions plus difficiles, où les méthodes concurrentes dépassaient des erreurs de 9 mètres, le nouveau système a maintenu une précision de seulement 0.076 mètre.

L’efficacité de traitement s’est également améliorée, avec des réductions du temps d’exécution pouvant atteindre 47.7 pour cent. Par rapport à des systèmes comme DSL et I2D Loc++, les gains sont restés constants en termes de précision et de stabilité.

Pourquoi cela compte pour le déploiement réel

Cette approche change fondamentalement la manière dont la navigation basée uniquement sur caméra peut être déployée. En déplaçant la complexité vers la phase de cartographie hors ligne, le système opérationnel ne nécessite qu’une seule caméra. Cela réduit considérablement les coûts matériels, la consommation d’énergie et la complexité d’intégration.

L’utilisation de la couleur comme contrainte photométrique est particulièrement importante. Au lieu de s’appuyer uniquement sur la géométrie, le système exploite la cohérence visuelle pour maintenir la stabilité dans des conditions difficiles telles que des environnements peu structurés, des occlusions partielles ou des changements de point de vue.

D’un point de vue technique, il s’agit de l’une des directions les plus pratiques de la recherche en localisation actuellement. Les systèmes multisenseurs avec LiDAR et IMU dominent toujours l’autonomie haut de gamme, mais restent coûteux et énergivores. Un système basé uniquement sur caméra capable d’atteindre des niveaux de stabilité comparables, même dans des environnements contraints, ouvre la voie à des déploiements évolutifs dans la logistique, la robotique d’inspection et l’automatisation en intérieur.

Applications en robotique et environnements industriels

Le système est bien adapté aux scénarios en intérieur et aux environnements où le GNSS est limité, notamment l’automatisation des entrepôts, l’inspection souterraine, les tunnels, les parkings et les grandes installations industrielles. Il présente également un potentiel pour les plateformes autonomes légères où les contraintes de charge utile et de coût rendent les configurations multisenseurs impraticables.

À propos des institutions

L’Université de Wuhan est l’une des principales universités de recherche en Chine, particulièrement reconnue en géodésie, télédétection et technologies de navigation, avec des dizaines de milliers d’étudiants et d’importants programmes de recherche nationaux en GNSS et intelligence spatiale.

L’Université de Chongqing est une université nationale clé avec une forte orientation en ingénierie, soutenant des initiatives de R&D à grande échelle en robotique, systèmes intelligents et technologies de navigation appliquée.