Avance en localización solo con cámara reduce la deriva hasta en un 95 % sin GNSS ni LiDAR

Un equipo de investigación de la Universidad de Wuhan y la Universidad de Chongqing ha presentado un marco de localización basado únicamente en cámara que mejora significativamente la precisión de posicionamiento en entornos donde las señales de GNSS no están disponibles. El sistema utiliza una cámara monocular combinada con un mapa de nube de puntos en color preconstruido, logrando reducciones del error absoluto de trayectoria de entre el 52 y el 95 por ciento en comparación con los enfoques líderes actuales.

Los resultados, publicados en la revista Satellite Navigation, abordan directamente uno de los problemas más persistentes en la odometría visual, la acumulación de deriva a largo plazo. Esta es la limitación clave que ha impedido que los sistemas monoculares sean ampliamente confiables en tareas de navegación de precisión.

El mapeo de doble esparsidad reduce el cómputo y mejora la calidad de coincidencia

El sistema introduce un concepto de doble esparsidad que opera tanto a nivel de mapa como en tiempo de ejecución. Durante la preparación offline, los mapas densos basados en LiDAR se filtran para conservar solo características de alto valor con fuertes gradientes y alta distintividad visual. En tiempo de ejecución, la entrada de la cámara se procesa con la misma lógica, asegurando que solo se utilicen datos relevantes para la localización.

Esta correspondencia selectiva entre puntos del mapa y características de la imagen reduce la carga computacional al tiempo que mejora la fiabilidad del emparejamiento. En términos prácticos, evita los fallos comunes observados en sistemas tradicionales de localización visual, especialmente en entornos repetitivos o con poca textura.

La optimización jerárquica estabiliza la estimación de la pose

El pipeline de localización combina múltiples etapas de refinamiento. El seguimiento de características se realiza mediante flujo óptico, mientras que el filtrado de visibilidad asegura que solo se consideren los puntos relevantes del mapa desde la vista actual. El sistema aplica luego un proceso de optimización en dos etapas utilizando un filtro de Kalman de estado de error.

Primero, un paso de alineación geométrica proporciona una estimación global aproximada de la pose. A continuación, se realiza un refinamiento fotométrico basado en la consistencia de intensidad de la imagen, llevando la precisión a niveles subpíxel. Este enfoque en capas es lo que permite que el sistema se mantenga estable incluso en escenas donde los métodos puramente geométricos fallan.

Los resultados de pruebas muestran grandes mejoras frente a métodos existentes

Las pruebas en los conjuntos de datos R3live y WHU Motion muestran mejoras sustanciales en el rendimiento. En una secuencia, el error de trayectoria se redujo de 1.883 metros a solo 0.152 metros. En condiciones más desafiantes, donde los métodos competidores superaban errores de 9 metros, el nuevo sistema mantuvo una precisión de apenas 0.076 metros.

La eficiencia de procesamiento también mejoró, con reducciones de tiempo de ejecución de hasta un 47.7 por ciento. En comparación con sistemas como DSL e I2D Loc++, las mejoras fueron consistentes tanto en precisión como en estabilidad.

Por qué esto importa para el despliegue en el mundo real

Este enfoque cambia fundamentalmente la forma en que se puede implementar la navegación basada solo en cámara. Al trasladar la complejidad a la fase de mapeo offline, el sistema operativo requiere únicamente una cámara. Esto reduce de forma significativa el costo de hardware, el consumo energético y la complejidad de integración.

El uso del color como restricción fotométrica es especialmente relevante. En lugar de depender únicamente de la geometría, el sistema aprovecha la consistencia visual para mantener la estabilidad en condiciones difíciles como entornos con poca estructura, oclusiones parciales o cambios de punto de vista.

Desde una perspectiva técnica, esta es una de las direcciones más prácticas en la investigación de localización actualmente. Los sistemas multisensor con LiDAR e IMU siguen dominando en la autonomía de alto nivel, pero siguen siendo costosos y demandantes en energía. Un sistema basado solo en cámara que se acerque a niveles similares de estabilidad, incluso en entornos limitados, abre la puerta a implementaciones escalables en logística, robótica de inspección y automatización en interiores.

Aplicaciones en robótica y entornos industriales

El sistema es especialmente adecuado para escenarios interiores y entornos con limitaciones de GNSS, incluyendo automatización de almacenes, inspección subterránea, túneles, estacionamientos y grandes instalaciones industriales. También tiene potencial en plataformas autónomas ligeras donde las limitaciones de carga útil y costo hacen inviable el uso de múltiples sensores.

Sobre las instituciones

La Universidad de Wuhan es una de las principales universidades de investigación en China, con una fuerte especialización en geodesia, teledetección y tecnologías de navegación, contando con decenas de miles de estudiantes y programas de investigación de nivel nacional en GNSS e inteligencia espacial.

La Universidad de Chongqing es una universidad nacional clave con un fuerte enfoque en ingeniería, apoyando iniciativas de I+D a gran escala en robótica, sistemas inteligentes y tecnologías de navegación aplicada.