El uso de cámaras digitales se ha popularizado en el inicio del presente siglo sustituyendo las cámaras analógicas debido al abaratamiento de su precio y las ventajas que proporciona la tecnología digital. Una cámara digital usa un sensor electrónico para transformar la imagen proyectada en él vía una óptica en datos binarios. Básicamente existen dos tipos de tecnología de sensores, o CCD (Charge-Coupled Device) o CMOS (Complementary Metal Oxide Semiconductor).

En general, las cámaras digitales que se integran en sistemas LB-MMS son cámaras que provienen del campo de la visión artificial ya que estas ofrecen un completo control de su configuración (tiempo de integración,  sensibilidad,   modo de disparo de cámara, etc.).  La imagen en color está compuesta por tres canales de colores primarios: rojo, verde y azul (RGB) y la mayoría de las cámaras digitales emplean un filtro de mosaico RGB (Bayer) delante del sensor para poder captar el color.  

El GEOMÒBIL es el sistema de cartografía móvil terrestre del ICC e  integra todos los sensores necesarios para la captura de imágenes digitales y su posterior georeferenciación para la extracción de la información de interés cartográfico. Para mejorar la productividad, la clasificación y la visualización de las imágenes, el ICC decidió sustituir las 2 cámaras digitales CCD monocromo instaladas originalmente por 6 cámaras CCD color [1].

32_art2_image001
Figura 1: El Sistema GEOMÒBIL del ICC.

1.  GEOMÒBIL

El GEOMÓBIL es un sistema modular y se divide en los siguientes subsistemas según su funcionalidad: orientación, plataforma de integración, sensor imagen, adquisición imagen, sincronización, almacenamiento, alimentación y climatización. Además, el sistema GEOMÓBIL es fácilmente ampliable con nuevos sensores ya que dispone  de espacio de instalación y recursos de sincronización, hardware y software.

En la 5ª Semana Geomática se presentó la primera fase del sistema GEOMÒBIL. Este proyecto en su fase inicial integró en una furgoneta los equipos y sensores necesarios para la adquisición de datos de interés cartográfico. Entre los diferentes sensores instalados, se distinguen dos tipos según su propósito;  sensores de navegación, 2 antenas GPS, un  IMU y un odómetro; y sensores cartográficos, 2 cámaras digitales CCD monocromo. Las dos cámaras CCD monocromo permiten la captura de pares estereoscópicos de imágenes digitales y los sensores de navegación permiten capturar la información de posición y orientación para la georeferenciación  de las imágenes [1][5].  

En la segunda fase del proyecto, el ICC decidió instalar otro sensor cartográfico en el GEÓMOBIL, un láser escáner o Lidar terrestre. La integración conjunta de Lidar terrestre con el sistema GPS/IMU permite orientar directamente las escenas láser consiguiendo modelados 3D del entorno del vehículo [4][7].

Desde 2005, el ICC ha seguido trabajando en el desarrollo del sistema GEOMÓBIL y la principal novedad de esta última fase del proyecto es la integración de seis cámaras color digitales juntamente con los equipos y cableado que requieren. En la Figura 1 corresponde a una fotografía actual del sistema GEOMÓBIL y en la Figura 2 se puede observar en detalle la plataforma de integración de sensores que integra dos antenas GPS (una primaria L1/L2 y otra secundaria L2), un IMU, un Lidar Terrestre y 6 cámaras digitales color (2 frontales y 4 laterales) instaladas dentro de unas carcasas protectoras.

32_art2_image002
Figura 2: Plataforma de integración de sensores del GEOMÒBIL

2.  Integración de Cámaras Color en el GEOMÒBIL

2.1 Características e instalación de la cámara color
Las seis cámaras digitales color instaladas en el sistema GEOMÒBIL son del modelo SCOR-20SO con 1 CCD  y un filtro Bayer, tienen una resolución de 1600 x 1200 píxeles, se conectan vía interfaz IEEE-1394 (FireWire) a su PC de control, permite una señal de disparo externo según la especificación DCAM 1.30 trigger Mode_0 y mide 50 mm x 50 mm x 40mm. Otras características técnicas de la cámara son:

·          Modelo de sensor: Sony ICX274, 1/1.8” CCD sensor, 1600×1200 Color, Progressive scan, Global shutter.

·          Tamaño de píxel: 4.4μm x 4.4μm

·          Velocidad de captura: 14 imágenes/segundo a máxima resolución 1600 x 1200 y 8 bpp.

·          Formato: 8-bit o 16-bit per píxel, con un convertidor analógico-digital de 12-bit.

·          Shutter (tiempo de integración): de 110μs a 70ms a 14 FPS. Modo automático. 

·          Ganancia: de 0 a 25dB. Modo automático.

·          Control de la exposición.


Juntamente con la cámara se ha instalado un óptica Cinegon con una distancia focal de 8.0mm y un filtro polarizador para reducir el efecto de smearing ya que éste atenúa las reflexiones de la luz solar.  El campo de visión del conjunto cámara-óptica en el plano horizontal (1600 píxels) es de 47,50º y en el vertical (1200 píxels) de 36,53º.


Para evitar el efecto de bluring en las imágenes capturadas mientras el vehículo se mueve y para garantizar una buena calidad de la imagen debe haber un compromiso entre los parámetros de shutter y ganancia y la velocidad del vehículo. El tiempo de integración y ganancia se fijan en modo automático y su valor está comprendido entre dos umbrales,  0,2 y 3 ms y 0 y 25 dB respectivamente, para entornos urbanos donde la velocidad del vehículo en operación no supera los 30 Km/h. Para entornos de carretera, se fija una velocidad de operación entre 60 y 70 Km/h limitando el tiempo de integración entre 0.2 y 1 ms.  También se debe ajustar el control de la exposición para que no aparezcan zonas saturadas en escenas con iluminación excesiva.


Cada conjunto cámara y óptica se fija solidariamente a la plataforma de integración de sensores del sistema GEÒMOBIL con un soporte giratorio fijado y una base rectangular. El soporte giratorio permite fijar la orientación de la cámara en el plano horizontal del vehículo de forma continua en un arco de 180º y su elevación de forma discreta en 5 posiciones para enfocar el campo de visión a diversas zonas de interés particular de cada proyecto.


Una carcasa Pelco EH-3512 protege a la cámara físicamente, la aísla de las condiciones ambientales exteriores y se le conecta una entrada y una salida de aire del propio sistema de climatización del GEÒMOBIL. La cámara se fija en un soporte interior formado por dos piezas de plancha de acero inoxidable y este a la vez si fija a la carcasa y al soporte giratorio. En la Figura 3 se muestra una fotografía del conjunto cámara y óptica y una configuración de las elevaciones del soporte giratorio, la cámara frontal con un enfoque paralelo al plano horizontal del vehículo (elevación 0º) y las cámaras laterales una recubre la parte superior con una elevación de 20º y la otra la parte inferior con -20º.

32_art2_image003

32_art2_image004
Figura 3: Conjunto cámara color y óptica (arriba).  Soporte giratorio y carcasa protectora (debajo).

2.2  Integración Hardware
El subsistema de adquisición de imagen está compuesto por seis cámaras, cada una conectada vía Firewire a un PC de control con uno o dos discos extraíbles SATA de gran capacidad. Paralelamente el subsistema de sincronización está compuesto por un PC sincronizador con una tarjeta de tiempo y otra de generación de trigger o señal de disparo de cámara. El PC sincronizador recibe la señal PPS (Pulso por segundo) y los mensajes del tiempo GPS  para marcar los instantes de generación de trigger en tiempo absoluto.

Las seis cámaras color se han agrupado según pares en función de su posición en la plataforma de integración de sensores, cámaras frontales, en el lado derecho (FD), en el lado izquierdo (FE); cámaras laterales, en el lado derecho con enfoque superior (DS) e inferior (DI); y análogamente en el lado izquierdo (IS y II). Se genera una señal de  trigger por cada par de cámaras, así el instante de disparo de cámara por cada par es el mismo.


La frecuencia espacial del trigger debe garantizar el recubrimiento del trayecto con imágenes color y este parámetro depende, según el proyecto, de si la cámara es frontal o lateral y del campo de visión del conjunto cámara-óptica.  Habitualmente las frecuencias espaciales de las cámaras son del orden de una imagen cada 5 metros para las cámaras frontales y una imagen cada metro para las cámaras laterales. 
 

2.3   Dimensionado de los discos de almacenamiento
La cámara SCOR-20SO usa un convertidor analógico-digital de 12 bits pudiendo adquirir imágenes con 8 o 12 bits por píxel de resolución. Siguiendo un criterio de minimizar el espacio en disco ocupado por las imágenes, el sistema GEOMÒBIL almacena las imágenes directamente del CCD en formato raw con una resolución de 8 bpp (1byte por píxel) y aplica el color en postproceso. Indistintamente la cámara aprovecha los 12 bits de resolución para realizar el ajuste de la ganancia y de shutter, truncando a los 8 más significativos cuando se almacenan en disco.

Cada PC de control contiene según el modelo uno o dos discos extraíbles SATA de gran capacidad, 400 GB, para almacenar la imágenes y su información asociada. La capacidad máxima del bus Firewire es de 15 imágenes por segundo para imágenes de 8bpp(Y8). La cámara se conecta al PC vía bus Firewire con una capacidad máxima de 40 MB/s y el PC al disco de almacenamiento vía bus SATA con una capacidad máxima sostenida de 60 MB/s.  


En la configuración de captura del sistema intervienen dos factores limitantes, el bluring (velocidad de escena) y la capacidad de escritura a disco, el tiempo de integración mínimo para una determinada relación señal-ruido en la cámara y la frecuencia espacial de adquisición. Con todos estos parámetros se ha determinado que para el caso de adquirir imágenes con las cámaras frontales, la velocidad máxima de captura no superará las 7 imágenes por segundo y para el caso de las cámaras laterales, 14 imágenes por segundo. También se estima que una sesión continua del sistema GEÒMOBIL no superará las 8 horas.

Con los datos anteriores, en la Tabla 1 se presentan los cálculos realizados para el dimensionado de los discos de almacenamiento de las imágenes color en formato raw. Cada imagen tiene un tamaño de 1,83 MB que a 7 imagenes por segundo significa una tasa de transferencia de 12,82 MB/s y a 14 de 25,63 MB/s, siendo ambas tasas inferiores a la capacidad máxima del bus de adquisición (Firewire) y de almacenamiento (SATA). Suponiendo las tasas de transferencias máximas durante toda la sesión de captura (8 horas), esto significa que el volumen de datos para una cámara frontal es de 360,49 GB y para una lateral, de 720,868 GB.  

Dimensionado de discos Cámara Frontal Cámara Lateral
Formato imagen                      raw Y8 (8bpp)
Tamaño imagen                  1600 x 1200 pixels
Tamaño fichero                       1,83 MB
Duración sesión GEOMÒBIL                        8 horas
FPS máx. GEOMÒBIL < Firewire (Y8) 7 < 15 FPS 14< 15 FPS
Throughput máx. GEOMÒBIL < Firewire 12,82 < 40 MB/s 25,63  < 40 MB/s
Throughput máx. GEOMÒBIL < SATA 12,82 < 60 MB/s 25,63  < 60 MB/s
Volumen datos sesión GEOMÒBIL 360,49 GB 720,98 GB
Número de discos almacenamiento 1 x 400 GB 2 x 400 GB

Tabla 1 : Dimensionado discos para almacenamiento imágenes color.


Finalmente, para conseguir un mejor rendimiento del disco con una actividad continua de almacenamiento que puede llegar hasta 14 imágenes por segundo se adoptan las siguientes medidas:

·          El sistema operativo reside en un disco físico con uso dedicado.

·          Se realiza un formateo rápido del disco de almacenamiento en cada sesión.

·          Un disco por cámara.

·          Las imágenes se almacenan de 1000 en 1000 en ficheros contenedor (extensión *.i2c)


Es importante destacar que la operación de abrir y cerrar un fichero puede tomar tiempos superiores a 1/8 de segundo limitando la capacidad de almacenamiento del sistema a una imagen por segundo aproximadamente si se almacenan las imágenes individualmente. Consecuentemente si se almacenan las imágenes en ficheros contenedor se reduce el tiempo de gestión de creación de ficheros y tomando un compromiso entre capacidad del sistema y tamaño del fichero contenedor se ha fijado almacenar las imágenes de 1000 en 1000.

3 Software de captura y sincronización de imágenes color

3.1  Descripción software de operación
En cada PC de control de cámara, se ejecuta el programa de captura de imágenes que inicialmente configura los parámetros de la cámara (formato de la imagen, bits por píxel, shutter, ganancia, exposición y trigger) y crea la estructura de directorios y ficheros donde se almacenaran las imágenes y su información asociada.

En el PC sincronizador se ejecuta el programa de generación y sincronización de los triggers con el tiempo GPS. Una vez la fase de inicialización de la sincronización ha finalizado, se configuran las frecuencias espaciales de los  triggers y estos se activan cuando alguno de los PC’s de control de cámara envía el mensaje de inicio de la captura. El proceso de sincronización genera los triggers en función de la velocidad del vehículo y la frecuencia espacial de adquisición de imágenes configurada, almacena en disco los tiempos GPS de todos los instantes de disparo de todas las cámaras y también tiene su propio mecanismo de actualización y control de la sincronía para ajustar periódicamente las derivas del offset entre la tarjeta de tiempo y el tiempo GPS absoluto. Paralelamente el PC de navegación registra los datos de la trayectoria y orientación del vehículo.

32_art2_image005

32_art2_image006
Figura 4: Ejemplo de par de imágenes capturado en el mismo instante por las cámaras frontales (elevación de 0º) en entorno de carretera. 

3.2  Descripción  del post-proceso
El sistema GEOMÒBIL captura y almacena la información primaria pero no la procesa en tiempo real y así se maximizan los recursos de CPU, de RAM y de disco disponibles para poder garantizar la captura. Consecuentemente, toda la información primaria generada por los procesos de captura, sincronización y navegación se almacena en disco y se asocia en post-proceso, consiguiendo para cada imagen capturada su tiempo GPS, su posición y su orientación.

La información primaria se divide en ficheros contenedores de 1000 imágenes en formato raw (i2c); ficheros con la información asociada a cada imagen, identificador, contador, tiempo interno de cámara, mitad del tiempo de integración y directorio de almacenamiento; ficheros de sincronización que contienen las marcas de tiempo GPS de todos los instantes de disparo y los ficheros con la información de la trayectoria y orientación del vehículo.

En el flujo del postproceso de la información primaria se extraen de los ficheros i2c las 1000 imágenes que contienen en formato raw, luego se le aplica el color original de la imagen en formato bmp, se le aplica una rotación de 90º en caso que se haya intercambiado el campo de visión horizontal y vertical  del conjunto cámara y óptica, se le aplica un algoritmo de compresión de imagen y se almacena la imagen en disco. El tiempo y contador interno de cada imagen se correla con los tiempos GPS de cada instante de disparo y así asociar cada imagen con su tiempo GPS. Una vez cada imagen se le ha asociado su tiempo GPS, se le añade la mitad del tiempo de integración y se calcula su posición y orientación mediante la interpolación a la trayectoria del vehículo del instante de disparo. En caso que sea necesario, todo el conjunto de imágenes orientadas se puede filtrar para seleccionar las que están ubicadas en una zona de interés predeterminada.

4    Descripción campañas iniciales con las cámaras color

Las seis cámaras color en el sistema GEOMÒBIL se pueden instalar de diversas maneras en la plataforma de integración de sensores según el recubrimiento y el entorno de la escena. Inicialmente se han planteado y usado en distintas campañas las siguientes configuraciones:

·          En entorno urbano, se instalan dos cámaras frontales (FD y FE)  y 4 cámaras laterales (DS,DI,IS y II), 2 a cada lado, una con una elevación de 0º y otra con una elevación inferior de 20º. La velocidad del vehículo es de 30 Km/h. 

·          En entorno de carretera se capturan imágenes con dos cámaras frontales (FD y FE) y se reubican dos cámaras en la parte trasera para la adquisición reversa. La velocidad del vehículo es de 70 Km/h. 


La frecuencia espacial de adquisición configurada en el programa de generación de trigger para garantizar el recubrimiento completo de todos los tramos es de 1 imagen cada 5 metros para las cámaras frontales/traseras y 1 imagen cada metro para las cámaras laterales ya que estas están orientadas perpendicularmente a la dirección de circulación del vehículo.

Cámara  Frontal FD  Lateral DS
Longitud tramo (metros) 2423,910 2423,910
Frecuencia Configurada (metros/imagen) 5 1
Número de imágenes 781 3586
Frecuencia Espacial media de la sesión  (metros/imagen) 3,1 1,1
Desviación estándar de la Frecuencia Espacial 1,6 0,4

Tabla 2: Comparación frecuencia espacial configurada y la real de un sesión en entorno urbano.

32_art2_image07

Figura 5: Posición del centro de proyección y frecuencia de adquisición de imagen en un tramo de 41 metros en entorno urbano.

En la Tabla 1 se muestra el número de imágenes de una sesión de 2,5 Km realizado por el GEOMÒBIL en un entorno urbano así como la media y la desviación de la frecuencia real de captura en comparación con la configurada en el software de generación de trigger. En la Figura 5 se muestra las posiciones de disparo de cámara y la frecuencia de adquisición espacial de un tramo de 41 metros de dicha sesión.

Una vez realizada la primera campaña en pruebas en ámbito urbano con el GEOMÒBIL y las seis cámaras color se ha obtenido un gran volumen de imágenes georeferenciadas. Para minimizar el esfuerzo al máximo de búsqueda de imágenes se planteó el diseño de un algoritmo de filtrado para seleccionar las imágenes asociadas a un punto de interés. Se ha creado un software de filtrado que a partir de  dos conjuntos de datos de entrada, todas las imágenes georeferenciadas capturadas por el GEOMÒBIL en una zona urbana y una lista de las coordenadas de las posiciones de los puntos de interés, asocia a cada punto de interés un subconjunto de imágenes próximas a éste que contienen en su campo visual dicho punto de interés. 


El algoritmo de filtrado puede seguir diferentes criterios de asociación según el tipo de punto interés. En el primer caso de filtrado los punto de interés eran los puntos centrales de parcelas urbanas donde interesaba encontrar la fotografía centrada de la fachada en planta baja.  Para conseguir este propósito se ha realizado una búsqueda de la imagen más lejana del punto de interés que tenga la línea de visión más centrada a éste de todas las imágenes de  las cámaras laterales con inclinación paralela a la vía, la DS y la IS (ver 3.2). Debido a posibles problemas de ocultación presentes en las imágenes principalmente por la circulación de autobuses y camiones que sobrepasan la altura de las cámaras (2,2 metros), también se han asociado las imágenes más próximas a la seleccionada. De esta forma se han clasificada las imágenes según 4 categorías:

·          código 1: Imagen principal asociada al punto de interés.

·          código 2: Imagen asociada a la principal, campo de visión muy similar.

·          código 3: Imagen sub-asociada o de campo de visión próximo (imagen más cercana a la fachada) .

·          código 0: Imagen no asociada a ningún punto, cámara enfocada a la fachada opuesta.


Los resultados del filtrado se muestran en la Tabla 3 donde de un conjunto total de 579735 imágenes y 10871 puntos de interés se han seleccionado 10145 imágenes principales (código 1) como mejor imagen lejana. Los 726 puntos sin imagen seleccionada se debe a puntos internos de islas u otros con alguna particularidad fuera de las suposiciones generales del algoritmo. Para  cada una de las 10145 imágenes se han seleccionado 18651 imágenes que por proximidad a la seleccionada puede de servir de ayuda para visualizar la fachada (código 2). También se ha geocodificado como las anteriores las 16333 imágenes próximas a la fachada del punto de interés que en caso de ocultaciones sustituyen a las otras.

Código Selección Total Imágenes principales  (1) Imágenes asociadas (2) Imágenes próximas (3)
Número de imágenes 579735 10145 18651 16333
% de imágenes seleccionadas 100 % 1,75% 3,22% 2,82%

Tabla 3: Resultados del filtrado de imágenes en un proyecto en ámbito urbano.

5    Experiencias en la detección automática de señales de tráfico

El software desarrollado en el Institut Cartogràfic de Catalunya (ICC) para la captura de datos a partir de las imágenes proporcionadas por el sistema GEOMOBIL, permite navegar por el recorrido de la GEOMOBIL y asiste la digitalización interactiva para crear, actualizar o revisar datos georeferenciados en los SIG. La funcionalidad básica es la determinación de coordenadas en el sistema de referencia predeterminado a partir de las observaciones fotogramétricas de pares de imágenes orientadas, y la clasificación de los objetos digitalizados. Para medir un punto se debe identificar en dos imágenes de un par estereoscópico visualizadas en dos ventanas. Cada ventana se configura según los parámetros de la cámara para situar la imagen en un plano perpendicular a su eje, de forma que puede superponerse información vectorial. A partir de los puntos identificados se calculan sus coordenadas resolviendo las ecuaciones de colinealidad. Para facilitar la localización del segundo punto se puede visualizar la línea epipolar calculada a partir del primer punto. 

Con el objeto de agilizar y optimizar el proceso de captura, se ha analizado que datos podrían ser susceptibles de ser capturados de manera automática, y se ha considerado que la señalización vertical relativa a señales de tráfico y a hitos quilométricos cumple un nivel alto de estandarización que hace posible su identificación y localización a partir de las imágenes de los pares estereoscópicos. En colaboración con el Centre de Visió per Computador (CVC) de la Universitat Autònoma de Barcelona (UAB), se ha trabajado en la implementación de métodos automáticos de visión artificial que permitan extraer esta información [7][8]. Actualmente el sistema está desarrollado para el tratamiento de imágenes monocromáticas, y se está trabajando para la incorporación de imágenes en color para aprovechar la información adicional que éste aporta. El resultado del desarrollo se ha concretado en unas aplicaciones de software integrables en la cadena de producción para la captura de datos que está utilizando el ICC. Estas aplicaciones generan a partir de los datos de entrada del sistema GEOMÒBIL (la trayectoria, la orientación de las cámaras y las imágenes) la información relativa a señales de tráfico (situación de la señal y su clasificación de acuerdo al catálogo de señales, imágenes donde aparece, etc.).

5.1
Descripción del sistema
El proceso se inicia con la detección automática de todos los objetos identificados como posibles señales de tráfico. Como el detector se ha diseñado con el propósito de no perder ninguna señal, puede que algunos objetos identificados no lo sean propiamente, y para agilizar los procesos posteriores de reconocimiento y localización, se permite descartarlos manualmente.

El sistema de detección está basado en un conjunto de cascadas de detección especializadas en tipos de señales parecidas. Dada una imagen de entrada se analiza cada región de esta imagen a diferentes escalas con las cascadas de detección para descartar las regiones que no corresponden a ninguna señal. Cada cascada de detección está formada por un conjunto de clasificadores que han sido entrenados usando el algoritmo Adaboost [9] a partir de muestras de las imágenes capturadas con el mismo sistema GEOMOBIL. Esta técnica permite crear un detector complejo a partir de detectores más simples, que utilizan filtros que dan un valor indicativo de la variación de intensidad entre diferentes regiones contiguas de la imagen.


El módulo de reconocimiento aprovecha el primer nivel de clasificación determinado por la cascada del detector. Como primer paso se localiza la señal en la región analizada usando sus propiedades geométricas, posteriormente se normaliza y se clasifica. Para la localización de las señales circulares se ha implementado un método basado en la simetría radial [10], que considera que en un punto de la imagen de la escala de grises el gradiente tiende al centro de la señal. Para las señales triangulares se ha optado por aplicar un método basado en detectar líneas rectas usando una optimización de la transformada de Hough [11] en los contornos reconocidos sobre la imagen.


Para la clasificación se ha entrenado un conjunto de clasificadores usando una mejora de la técnica Error Correcting Output Codes (ECOC) [12], que aplica clasificadores individuales binarios para obtener una clasificación multiclase y determinar de forma más robusta las características comunes de la señal.

Para calcular la posición de las señales detectadas se utiliza el modelo estereoscòpico. A partir de la región donde se ha detectado una señal, se calcula la región correspondiente en la otra imagen del par utilizando la geometría epipolar determinada por los parámetros de orientación, y se busca la señal por correlación.

5.2 Modificaciones para el tratamiento de imágenes color

La utilización de Adaboost como método de aprendizaje de los detectores es muy lento, lo que hace inviable su utilización con imágenes color, dado el gran numero de características de los tres componentes RGB. Se ha modificado la estrategia que se usa en Adaboost, que para encontrar el mejor resultado hace una búsqueda exhaustiva sobre todos los filtros previstos, por una búsqueda evolutiva basada en algoritmos genéticos o en el aprendizaje incremental basado en poblaciones, donde las características encontradas son bastante buenas, aunque no necesariamente las mejores. De esta forma se pueden tratar un mayor número de características durante el entrenamiento reduciendo el tiempo de aprendizaje.

También se han utilizado nuevos filtros para la detección, que eliminan la restricción de que las regiones de la imagen a analizar sean contiguas, y que permiten además que en cada región se pueda evaluar una componente de color distinta.

Para atenuar los efectos del cambio de iluminación, las imágenes se han normalizado asignando el porcentaje de color a cada punto de la imagen.


Con la aplicación de este método, y con las pruebas realizadas hasta el momento, se ha confirmado la hipótesis de que la información proporcionada por las componentes de color es más discriminante que la información monocromática, ya que el detector acaba usando solamente las características que contienen información del color. Además, la selección siempre converge cuando se usa la información del color para casos donde no se alcanza ningún resultado con características monocromáticas.


5.3 Análisis de los resultados
Para entrenar los detectores se han obtenido ejemplos de las señales que aparecen en 8.000 pares estereoscópicos monocromáticos, con una proporción de 3 a 1 de imágenes negativas respecto las positivas correctas. Se han entrenado 5 cascadas de detectores, agrupando las señales por similitud en las clases ceda el paso, peligro, prohibición, obligación y hitos kilométricos. Aplicando el sistema de detección sobre 10.000 pares estereoscópicos distintos a los anteriores, el porcentaje de señales reales detectadas para cada grupo es el siguiente (Tabla 4):

Tipo

Señales utilizadas para
entrenar el sistema

Porcentaje señales
detectadas

Ceda

425

97.01%

Peligro

545

93.91%

Prohibición

993

94.69%

Obligación

356

83.33%

Hitos kilom.

218

75.61%

Tabla 4: Porcentaje de detección de señales según el tipo.


En general, se observa que la exactitud de los detectores depende de la complejidad de la señal y del tamaño del conjunto de aprendizaje. En cuanto a su dificultad se ha observado que las señales de obligación son oscuras y en condiciones extremas de iluminación se confunden con el fondo, mientras que en las de peligro la parte blanca de la señal, aún en condiciones extremas, sigue diferenciándose del fondo. Otro problema es la variabilidad de tipos dentro de cada agrupación de señales, y su frecuencia. De esta manera, la probabilidad de que cierta señal pertenezca al grupo de aprendizaje de variabilidad baja es superior a la de otra de un grupo con alta variabilidad. La detección de hitos kilométricos presenta algunos problemas por su reducido tamaño y poca frecuencia de aparición en estos tramos.


La clasificación se ha considerado sobre las señales de la tabla que se muestra a continuación, y se ha aplicado sobre las señales detectadas en los 10000 pares estereoscópicos anteriores. Algunas señales se han agrupado porque con la resolución actual no pueden distinguirse, como por ejemplo las prohibiciones de velocidad, los cruces con prioridad y las reducciones de anchura del vial.


En la Tabla 5 se muestran los porcentajes de señales clasificadas correctamente:

Tipo

Porcentaje señales clasificadas

Circulares

98.00%

Velocidad

91.50%

Triangulares

92.50%

                                         Tabla 5: Porcentaje de señales clasificadas.

Hasta el momento no se disponen de suficientes imágenes en color para entrenar los detectores y clasificadores considerando la información que estas aportan.

Conclusiones

Este artículo ha descrito la integración de séis cámaras color de tecnología CCD en el sistema de cartografía móvil terrestre GEOMÒBIL del ICC, los componentes y dimensionado del hardware, el software de captura y sincronización de imágenes color georeferenciadas y el filtrado de estas para asociar a un punto de interés georeferenciado un conjunto de imágenes. Se ha descrito las primeras experiencias con las cámaras color y se ha presentado los resultados del algoritmo de detección de objetos utilizando las imágenes monocromo de la primera versión del sistema GEOMÒBIL y las modificaciones que se deben hacer para adaptarlo a las imágenes color. 


El principal resultado de las primeras campañas en pruebas del GEOMÒBIL en entornos urbanos y de carreteras es la puesta y validación del sistema en la cadena de producción del ICC para la realización de proyectos de cartografía móvil terrestre. Se ha creado y probado todo el software necesario para la captura, proceso, filtrado y tratamiento de los datos.


El software permite la configuración de frecuencias espaciales de adquisición de imágenes sincronizadas con tiempo GPS, habitualmente, 1 imagen cada 5 metros para cámaras frontales/traseras y 1 imagen cada metro para cámaras laterales; la reducción del número de imágenes de interés mediante el filtrado de las imágenes asociadas a un conjunto de puntos predeterminados y la detección automática de señales de tráfico con un porcentaje de clasificación correcta de señales según el tipo superior al 75% y según la forma (circulares, velocidad y triangulares) superior al 91%. 


El ICC seguirá trabajando en el desarrollo y explotación del proyecto GEOMÒBIL tanto en ámbito urbano como de carreteras y en la adaptación de los algoritmos de detección automática de señales en las imágenes color.

Referencias

[1]. Bosch, E., Alamús, R., Serra, A., Baron, A., Talaya, J., 2003. GEOVAN: El sistema de cartografía terrestre móvil del ICC. (Setmana Geomàtica ’2003). Barcelona, Spain.


[2]. Serra, A., 2003. Subsistema de adquisición de datos del sistema GEOVAN.  (Setmana Geomàtica ’2003). Barcelona, Spain.


[3]. Alamús, R., Baron, A., Bosch, E., Casacuberta, J., Miranda, J., Pla, M., Sànchez, S., Serra, A., Talaya, J., 2004. On the accuracy and performance of the GEOMÒBIL system. International Archives of Photogrammetry and Remote Sensing, Istambul, Turkey.


[4]. Talaya, J., Bosch, E. Serra, A., Alamús, R., Bosch, E., Kornus, W., 2004. Integration of a Terrestrial Laser Scanner with GPS/IMU Orientation Sensors. International Archives of Photogrammetry and Remote Sensing, Istambul, Turkey.


[5]. Talaya, J., Bosch, E., Alamús, R., Bosch, E., Serra, A., Baron, A., 2004. GEOMÒBIL: the Mobile Mapping System from the ICC, 4th International Symposium on Mobile Mapping Technology (MMT’2004). Kumming, China.


[6]. Serra, A., Baron, A., Bosch E., Alamús, A., Kornus, W., Ruiz, A., Talaya, J.,  2005. GEOMÒBIL: Integración y experiencias de Lidar Terrestre en LB-MMS (Setmana Geomàtica ’2005). Barcelona, Spain.


[7]. S.Escalera, P.Radeva. “Fast Greyscale road sign model matching and recognition”. Frontiers in Artificial Intelligence and Applications / Recent Advances in Artificial intelligence Research and Development, 113:69-76, Eds: J. Vitrià, P. Radeva, I Aguiló, IOS Press, ISBN: 1-58603-466-9, 10|2004


[8]. X.Baró, J.Vitrià. “Fast Traffic Sign Detection on greyscale images”. Frontiers in Artificial Intelligence and Applications / Recent Advances in Artificial intelligence Research and Development, 113:209-216, Eds: J. Vitrià, P. Radeva, I Aguiló, IOS Press, ISBN: 1-58603-466-9, 10|2004


[9]. Y. Freund and Robert E. Schapire. “A decision-theoretic generalization of on-line learning and an application to boosting”. Journal of Computer and System Sciences, 55(1) : 119 ¡ 139, August 1997


[10]. G. Loy and A. Zelinsky: “A Fast Radial Symmetry Transform for Detecting Points of Interest”, in: A. Heyden et al. (Eds.): Proc. of 7th European Conf. on Computer Vision, Part 1, pp. 358 ¡ 368, Springer LNCS 2350, 2002


[11]. B. S. Morse, Segmentation (edge based, hough transform),” technical report, 2000.


[12]. T.G. Dietterich and G. Bakiri, “Solving Multiclass Learning Problems via Error-Correcting Output Codes”, Journal of Arti¯cial Intelligence Research, vol. 2, 263-286, 2005.