Instituciones como las bibliotecas, cartotecas y archivos históricos han custodiado, a lo largo de los años, diferentes tipos de información geográfica, como mapas antiguos o planos históricos, de gran valor no sólo para profesionales especializados sino también para un público general con inquietudes acerca de la evolución de una determinada zona. El papel que desempeñan estas instituciones resulta de enorme interés en el contexto de las Infraestructuras de Datos Espaciales (IDE) debido al impulso que puede suponer para la distribución y uso compartido de la información geográfica.
En junio de 2008 se constituyó el Grupo de Trabajo Interdisciplinar de Patrimonio Cartográfico en las IDE (GTI PC-IDE) con el objetivo de potenciar la publicación digital del Patrimonio Cartográfico a través de las IDE. Una de las primeras dificultades para poner a disposición del público general todos esos recursos de información geográficos era que éstos se encontraban catalogados pero no seguían los estándares habituales en el mundo de las IDE, por lo que existía un problema de incompatibilidad que necesitaba ser resuelto. Tras comprobar que los fondos bibliográficos de las instituciones gestoras de Patrimonio Cartográfico estaban descritos siguiendo el formato MARC (Machine Readable Cataloging), y más concretamente el perfil MARC21 (Library of Congress, 2014), el GTI PC-IDE comenzó a trabajar en un modelo de interoperabilidad entre MARC21 y el estándar internacional de información geográfica ISO19115 (ISO, 2003, 2005), ampliamente adoptado en el ámbito de las IDE. Gracias a la colaboración de bibliotecas, archivos y centros de información gestores de Patrimonio Cartográfico, se definió un mapeo semántico entre los campos de uno y otro estándar y se establecieron unas reglas de conversión que permitiesen materializar los cruces de elementos planteados, dando lugar a la pasarela de conversión entre MARC21 e ISO19115 (BARRERA 2013; CAPDEVILA 2012; CRIADO 2012). Los resultados se publicaron en el Geoportal de Metadatos de Información Geográfica1, propiedad del Instituto Geográfico Nacional.
Una vez definida la pasarela, ésta se implementó en la aplicación informática CatMDEdit2 para servir de referencia a todo el trabajo realizado. Este software de código abierto centrado en la creación de registros de metadatos de información geográfica de acuerdo con las normas ISO 19115 e ISO 19119 también permite la interoperabilidad con otras normas de metadatos, y entre las utilidades de CatMDEdit se encuentra la posibilidad de realizar transformaciones entre estándares y normas de metadatos, ofreciéndose asimismo la opción de exportar los registros de metadatos en diferentes formatos de ficheros. Fue precisamente dentro de estas opciones de importación y exportación de registros donde se decidió integrar la pasarela de conversión entre MARC21 e ISO19115, a través del proceso que se muestra de manera esquemática en la Figura 1 y que consta de los siguientes pasos: transformación del contenido del registro MARC21 al formato MARC21 XML para facilitar su procesamiento, extracción de campos de interés para el mapeo, formateo/adaptación de dichos campos y escritura en el XML final conforme a ISO 19115.
Figura 1. Proceso de conversión de MARC 21 a ISO 19115
Gracias a este mecanismo, el usuario puede trabajar con este registro de metadatos en formato ISO19115 en las mismas condiciones que con cualquier otro registro conforme a la citada norma. Además de permitir la conversión de registros MARC21 a ISO19115, CatMDEdit ofrece la posibilidad de efectuar la exportación en sentido contrario, es decir, a partir de un registro de metadatos conforme a la norma ISO19115, obtener su representación en formato MARC21.
Una vez concluida la fase de creación e integración de la pasarela de conversión entre registros MARC21 e ISO19115, se decidió constatar su robustez mediante la realización de un análisis crítico de su aplicación sobre un entorno real, concretamente sobre el Archivo General de Simancas y sobre la Biblioteca Nacional. El Archivo General de Simancas, fundado en el año 1540, recoge documentación producida por los órganos centrales de gobierno de la monarquía hispánica desde el último tercio del siglo XV hasta el primer tercio del siglo XIX y dispone de una importante Colección Digital de Mapas, Planos y Dibujos. Por otro lado, la Biblioteca Nacional abrió sus puertas en 1712 y actualmente custodia alrededor de 30 millones de publicaciones producidas en el territorio nacional desde esa fecha, entre las cuales destacan sus más de 5.000 recursos cartográficos accesibles en formato digital a través de la Biblioteca Digital Hispánica.
En los siguientes apartados se detalla la metodología empleada durante la investigación (2), el análisis cualitativo de los resultados obtenidos en el estudio (3), la publicación de los registros de metadatos en un catálogo estándar (4) y, por último, las conclusiones (5).
Método de investigación
Como paso previo al análisis de calidad se diseñó una metodología de estudio (ver Figura 2) consistente en la sucesión de los siguientes pasos: 1º recopilación de un conjunto de registros en formato MARC21 a través de los servicios web de consulta con interfaz OAI3 proporcionados por los organismos objeto del estudio; 2º aplicación de la pasarela de conversión sobre los conjuntos seleccionados para obtener registros en ISO19115 y publicación de dichos registros por medio de un servicio de catálogo compatible con la interfaz estándar Catalogue Services for the Web4 (CSW) del Open Geospatial Consortium5 (OGC); 3º aplicación de la pasarela sobre los registros del paso 2 para obtener de nuevo registros en formato MARC21.
Figura 2. Metodología de validación de la pasarela
Paso 1: recopilación de los registros en formato MARC21
Para la recopilación de los registros en formato MARC21, primer paso del método establecido, se analizaron diferentes organismos gestores de material cartográfico que habían participado en la creación de la pasarela. Finalmente se seleccionaron dos organismos, la Biblioteca Nacional de España y el Archivo General de Simancas, dado que en ambos casos los metadatos de sus fondos cartográficos estaban accesibles públicamente a través de un servicio con interfaz de consulta OAI que permitió la descarga automática de los registros necesarios en formato MARC21. En el caso de la Biblioteca Nacional, que actualmente dispone de más de 134.000 recursos en su Biblioteca Digital Hispánica, se recopilaron únicamente aquellos registros relativos al material cartográfico impreso y manuscrito por ser los relevantes desde el punto de vista de la información geográfica, selección que también se realizó sobre la colección de más de 185.000 registros del Archivo General de Simancas.
Para la descarga de toda la información a través de la interfaz OAI proporcionada por los dos organismos se desarrolló un programa en Java que ejecutaba una petición de consulta sobre el servidor para recuperar todos los registros de metadatos en formato MARC21 y posteriormente filtraba los resultados para extraer aquellos registros correspondientes a material cartográfico y material cartográfico manuscrito. El planteamiento inicial fue aplicar este mismo procedimiento en ambos escenarios, Biblioteca Digital Hispánica y Archivo General de Simancas, pero en el segundo caso se encontraron ciertas dificultades durante la petición de consulta, principalmente debido a errores de conexión de red, tiempo de espera agotado, respuestas incompletas, etc., por lo que se decidió basar la petición de consulta en los identificadores de registros en formato MARC21 y una vez conocidos los identificadores realizar una descarga de esos registros para obtener un conjunto sobre el cual extraer los correspondientes a material cartográfico y a material cartográfico manuscrito.
Finalmente se obtuvo un total de 4.471 registros procedentes de la Biblioteca Digital Hispánica (3.789 de tipo material cartográfico y 682 de tipo material cartográfico manuscrito) y 5.101 registros procedentes del Archivo General de Simancas (126 de tipo material cartográfico y 4.975 de tipo material cartográfico manuscrito).
Paso 2: conversión de los registros en formato MARC21 al estándar ISO19115
Una vez descargados todos los registros en MARC21 de la Biblioteca Digital Hispánica y del Archivo General de Simancas, se procedió a aplicar la pasarela de conversión de MARC21 a ISO19115. Para realizar este trabajo se abrían 2 posibilidades: realizar la conversión a través de la herramienta CatMDEdit o aplicar un programa para la conversión masiva de registros. Dada la gran cantidad de registros que se iban a transformar y la sobrecarga que supone una interfaz gráfica de una aplicación de escritorio en cuanto a consumo de recursos hardware, se creyó conveniente crear un sencillo programa que, haciendo uso de las librerías de CatMDEdit, realizase la conversión de forma independiente por línea de comandos sin necesidad de cargar toda la estructura de ventanas de la aplicación.
Durante el proceso de conversión se detectaron algunas incidencias relacionadas con la lectura e interpretación de los registros MARC21, principalmente debido a la ausencia de caracteres en el campo leader y/o a patrones variables en la codificación de caracteres, lo cual supuso un análisis riguroso de aquellos registros que presentaban problemas y de este modo extraer los casos semejantes para aplicar soluciones comunes a todos ellos, de forma que se corrigieran los registros sin alterar su significado (ej: inserción de caracteres vacíos, sustitución de caracteres problemáticos por valores por defecto, etc.)
Paso 3: conversión de los registros ISO19115 a formato MARC21
El último paso en las pruebas de conversión sobre un escenario real consistió en la transformación a la inversa, tomando los registros en ISO19115 obtenidos en el paso 2 y aplicándoles la pasarela de conversión hacia el formato MARC21, utilizando también en esta ocasión un sencillo programa en Java que hacía uso de las librerías de transformación de CatMDEdit. Durante este proceso de transformación masiva de los registros ISO19115 a MARC21 no se detectaron incidencias.
Análisis de la calidad en la conversión de registros
Una vez finalizada la fase de aplicación de la pasarela sobre el entorno real de la Biblioteca Digital Hispánica y el Archivo General de Simancas, se procedió a analizar la calidad de las conversiones efectuadas con el objetivo de evaluar el funcionamiento de la pasarela y extraer conclusiones que ayudasen a su mejora.
Una de las primeras conclusiones extraídas es que la tasa de conversión de registros fue del 100% lo cual demuestra la robustez de la pasarela. Las incidencias detectadas durante la ejecución de los pasos 1 y 2 tenían su origen en la conformidad de los ficheros con respecto al formato MARC21 así como en problemas de conexión durante las consultas al servicio para su descarga y no tenían su origen en la pasarela en sí.
En cuanto al análisis comparativo entre los ficheros MARC21 originales y los resultantes tras la transformación, se puede destacar que se realizaron comprobaciones para verificar cada uno de los campos MARC21 incluidos en la pasarela. Sin embargo, a pesar de que en los test realizados sobre los datos cartográficos de la Biblioteca Digital Hispánica y el Archivo General de Simancas se han analizado una cantidad bastante elevada de registros (9.572 registros en total), muchos de los campos susceptibles de ser transformados no se han podido comprobar por no hallarse presentes en ninguno de los registros MARC21 analizados. Concretamente, mediante los test realizados sobre los registros de la Biblioteca Digital Hispánica en torno al 47% de los campos no se encontraban en ninguno de los registros del catálogo, y al incluir los resultados realizados sobre los registros del Archivo General de Simancas la tasa se ha situado en torno al 40%. Este aspecto podría paliarse realizando un mayor número de test sobre otros catálogos de metadatos MARC21.
En la Tabla 1 se muestra una tabla resumen de los registros y campos analizados en la Biblioteca Digital Hispánica y en el Archivo General de Simancas:
BDH | AGS | GLOBAL | ||||
Nº | % | Nº | % | Nº | % | |
Total de registros MARC21 analizados | 4.471 | 100 | 5.101 | 100 | 9.572 | 100 |
Campos analizados en total (los incluidos y no incluidos en la pasarela) | 249.335 | 100 | 257.035 | 100 | 506.370 | 100 |
Campos analizados pertenecientes a la pasarela | 194.281 | 77,92 | 217.047 | 84,44 | 411.328 | 81,23 |
Campos que permanecen idénticos (*) | 166.507 | 85,70 | 133.830 | 61,66 | 300.337 | 73,02 |
Campos transformación con modificaciones (*) | 27.774 | 14,30 | 83.217 | 38,34 | 110.991 | 26,98 |
Campos que se pierden (no considerados en la pasarela) | 55.054 | 22,08 | 39.988 | 15,56 | 95.042 | 18,77 |
(*) Porcentajes respecto a los campos analizados pertenecientes a la pasarela
Tabla 1. Resumen de resultados
El 73% de los campos analizados permanecen idénticos en el fichero MARC21 original y en su transformado a la inversa, es decir, se mantienen exactamente igual tras aplicar los procesos de conversión, de modo que hay coincidencia exacta entre el fichero MARC21 obtenido a partir del ISO19115 y el registro MARC21 original.
El 27% restante sufre modificaciones entre el fichero MARC21 original y su transformado a la inversa. Sin embargo, aunque su contenido no sea idéntico sí es semánticamente coincidente o bien se trata de cambios previamente asumidos durante la definición de la pasarela:
- 1) Las fechas de creación, publicación y distribución de los datos se codifican en distinto formato. En MARC21 se permite especificar fechas en un formato bastante flexible (por ejemplo, incluir un año únicamente, una fecha, intervalo o valor textual) pero en ISO19115 el formato de fechas es más rígido obligando a definirlas según el patrón AAAA- MM-DD (año-mes-día), por lo que al realizar la transformación a ISO19115 en algunos caso se pierde parte de la información
- 2) Algunos campos múltiples en MARC21 tienen correspondencia con un campo simple en ISO19115 y, por lo tanto, al hacer la conversión inversa se reagrupan dentro de una misma instancia en el MARC21 final. Se realizaron comparaciones de contenido y se comprobó que aunque se agrupasen en uno sólo no se perdía ningún dato. Además, algunos de estos campos contenían valores duplicados que no se han incluido al transformar a ISO19115
- 3) Algunos campos de ISO19115 se rellenaban a partir de varios campos diferentes de MARC21. Por ejemplo, en el campo de Palabras clave, si una misma palabra clave aparecía en varios de los campos de MARC21 sólo se incluía una vez, por lo que al realizar la transformación inversa no se podía recuperar sobre los mismos campos que en el original
- 4) Las coordenadas geográficas se incluían en distinto formato, aunque su valor final era correcto. Por ejemplo, en los registros MARC21 originales de la Biblioteca Digital Hispánica se especificaban siguiendo el patrón “E1193845” y en los registros transformados como “119.0”, estando ambos aceptados en MARC21
- 5) En cuanto al formato y caracteres especiales, al realizar la transformación se encontraron algunos valores que no coincidían exactamente por contener caracteres especiales y no ser almacenados con la misma codificación, diferentes saltos de línea, espacios, etc. pero si ignoramos esas pequeñas diferencias el contenido era el mismo
- 6) Idioma de los datos. Al convertir el registro de MARC21 a ISO19115 este campo se rellenaba a partir de dos campos de MARC21: el valor de campo “008 de las posiciones 35-37” y del campo “041” si su valor no coincidía con el “008”. Por ello, en el caso de que el valor de ambos campos coincidiera, en el registro ISO19115 sólo se incluía el del “008” y al realizar la transformación inversa no se recuperaba sobre el campo “041” de nuevo.
No obstante, sí se detectaron algunos campos que sufren modificaciones erróneas entre el fichero MARC21 original y su transformado a la inversa: se encontraron fallos de emparejamiento entre valores de listas controladas lo cual provocaba que el contenido de un campo variase entre el MARC21 original y el transformado. Por otro lado, se detectó un error en el campo de “Información suplementaria” de ISO19115 que se completaba a partir de varios campos de MARC21: aunque la transformación a ISO19115 se realizaba de forma correcta, los atributos que permitirían diferenciar la procedencia del contenido no se almacenaba adecuadamente, lo cual impedía identificar qué fragmento del campo “Información suplementaria” se corresponde con cada uno de los campos iniciales MARC21.
Y finalmente en relación a los campos que se pierden durante la transformación: en torno al 19% del total de los campos existentes en el registro MARC21 original se perdían durante la transformación porque no habían sido considerados en el emparejamiento previamente acordado en base al cual se construyó la pasarela.
Gracias al análisis comparativo entre los ficheros MARC21 originales y los resultantes tras la transformación, se identificaron áreas de mejora en la implementación de la pasarela dentro de CatMDEdit:
- 1) Tolerancia a fallos en el campo leader: para mejorar la compatibilidad con registros MARC21 se podría aumentar la tolerancia en la lectura del campo leader de manera que, si se detecta alguna inconsistencia en el número de caracteres que contiene este campo, se autocomplete de forma automática para facilitar su lectura
- 2) Añadir campos adicionales en la pasarela: únicamente aquellos campos de MARC21 identificados de interés por el GTI-PC-IDE fueron considerados en la pasarela, por lo que ese conjunto podría ampliarse para dar cabida al resto de los campos que actualmente se pierden en el proceso de conversión
- 3) Almacenamiento de campos múltiples: cuando los campos múltiples de MARC21 se reagrupen en un único campo en ISO19115, podría almacenarse aplicando algún esquema diferenciador (por ejemplo, con un tipo de token) que permita la recuperación de la estructura original durante el proceso de conversión inversa
- 4) Corrección de errores detectados, como los relacionados con los valores de listas controladas y con el campo información suplementaria, así como una mayor tolerancia al uso de caracteres especiales
- 5) Posibilidad de invocar CatMDEdit por línea de comandos y lanzar las transformaciones de MARC21 a ISO19115, y viceversa, sin necesidad de abrir la interfaz gráfica de la aplicación, optimizando el uso de recursos del sistema
Publicación de los registros en un catálogo estándar
Como fase final del estudio, los registros obtenidos durante el proceso de conversión entre el formato MARC21 y el estándar ISO19115 se publicaron por medio de un servicio de catálogo compatible con la interfaz estándar Catalogue Services for the Web6 (CSW) del Open Geospatial Consortium7 (OGC). Para la construcción de este servicio de catálogo se utilizó el producto CatalogCube8, perteneciente al proyecto SpatiumCube9, una solución open source que permitía de una manera sencilla la instalación de un servicio de catálogo estándar para servir un conjunto de registros de metadatos ISO19115 almacenados en ficheros XML o en una base de datos. Adicionalmente, y para facilitar la recuperación de los registros de metadatos, se instaló una aplicación web de búsqueda10 que permitía la realización de consultas sobre el servicio de catálogo atendiendo a diferentes criterios. Esta aplicación se desarrolló a partir del producto open source ServiceCube11, perteneciente también al proyecto SpatiumCube, cuyo código fuente se adaptó para ajustarlo a las características especiales del catálogo de registros transformados de la Biblioteca Digital Hispánica y el Archivo General de Simancas.
De esta forma, la aplicación obtenida tenía el aspecto de la Figura 3, permitiendo la búsqueda y recuperación de registros de metadatos conforme a ciertos criterios. Los resultados se mostraban separados según su procedencia y, además de proporcionar acceso al detalle de los resultados, se facilitaba la descarga del fichero original en formato MARC21, del fichero transformado a estándar ISO19115 (según lo detallado en el paso 2) y del fichero nuevamente convertido a MARC21 (según se explica en el paso 3). Adicionalmente se proporcionaba un fichero comparativo de las diferencias encontradas entre el fichero MARC21 original y el fichero MARC21 transformado.
Figura 3. Aplicación de búsqueda de registros ISO 19115
Conclusiones
En la presente comunicación se han expuesto los resultados de análisis de la pasarela de conversión en ambas direcciones de metadatos MARC21 e ISO 19115, incluida en la herramienta de software libre CatMDEdit y desarrollada con el objetivo de adaptación de los metadatos existentes sobre cartografía histórica para su integración en las IDE. De este modo se pretende poner en valor los resultados obtenidos por el Grupo de Trabajo Interdisciplinar Patrimonio Cartográfico en las IDE (GTI PC-IDE), constituido en 2008 y cuyo trabajo se enmarca dentro de las actividades promovidas por el Grupo de Trabajo Infraestructura de Datos Espaciales de España (GT IDEE) del Consejo Superior Geográfico.
Para ello se ha descrito el trabajo realizado para la definición de dos escenarios reales de prueba, la Biblioteca Digital Hispánica y el Archivo General de Simancas, el desarrollo y ejecución de los test, así como el análisis de los resultados obtenidos. Si bien es cierto que se han detectado algunas pequeñas inconsistencias en los procesos de transformación de los registros de un estándar a otro, susceptibles de mejorarse en futuras versiones de la herramienta, se puede afirmar que la robustez de la pasarela ha quedado patente, reflejando una tasa de conversión del 100% de los registros tratados, donde la pérdida de información es mínima y era conocida de antemano.
Todos los resultados obtenidos han sido publicados a través de una aplicación web de catálogo, basada en la solución de código abierto CatalogCube , que puede consultarse libremente.
Agradecimientos
Este trabajo ha sido parcialmente financiado por el por el Gobierno de España a través del proyecto TIN2012-37826-C02-01, por el Gobierno de Aragón y el Fondo Social Europeo, a través del reconocimiento de grupo consolidado de investigación con referencia T56 y el proyecto INNOVA-A1-038-13.
Bibliografía
BARRERA J., CAPDEVILA J., NOGUERAS-ISO J., CRIADO M., CRESPO M., SÁNCHEZ A., SOTERES C. (2013): “Apertura de las cartotecas al mundo de las Infraestructuras de Datos Espaciales”. SCIRE, 19:1, pp. 15-22.
CAPDEVILA J., AGUDO J.M., ZARAZAGA-SORIA F.J., BARRERA J., SÁNCHEZ-MAGANTO A., SOTERES C., CRIADO M., CRESPO M. (2012). “Gateway MARC21-ISO19115: definition and reference implementation”. ePerimetron, 7:3, pp. 155-162.
CRIADO M., CRESPO M., CAPDEVILA J., AGUDO J.M., ZARAZAGA-SORIA F.J., BARRERA J., SÁNCHEZ-MAGANTO A., SOTERES C. (2012). “De las cartotecas a las IDE: puesta en servicio de una pasarela entre los estándares de catalogación MARC21 e ISO 19115.” Actas de las III Jornadas Ibéricas de Infraestructuras de Datos Espaciales (JIIDE’2012), Implementación de datos, servicios y metadatos en conformidad con INSPIRE, Madrid, 17-19 de octubre de 2012.
ISO (2003). “Geographic information – Metadata: ISO/FDIS 19115:2003”. Geneva, International Organization for Standardization (ISO).
ISO (2005). “Geographic information – Services: ISO 19119:2005”. Geneva, International Organization for Standardization (ISO).
LIBRARY OF CONGRESS (2014). MARC standards [en línea]. Washington, Library of Congress. http://www.loc.gov/marc (15-09-2014)
Warning: Undefined variable $req in /var/www/vhosts/rcg.cat/httpdocs/wp-content/themes/neomag-child/functions.php on line 48
Warning: Undefined variable $commenter in /var/www/vhosts/rcg.cat/httpdocs/wp-content/themes/neomag-child/functions.php on line 48
Warning: Trying to access array offset on value of type null in /var/www/vhosts/rcg.cat/httpdocs/wp-content/themes/neomag-child/functions.php on line 48
Warning: Undefined variable $aria_req in /var/www/vhosts/rcg.cat/httpdocs/wp-content/themes/neomag-child/functions.php on line 48
Warning: Undefined variable $req in /var/www/vhosts/rcg.cat/httpdocs/wp-content/themes/neomag-child/functions.php on line 49
Warning: Undefined variable $replace_email in /var/www/vhosts/rcg.cat/httpdocs/wp-content/themes/neomag-child/functions.php on line 49
Warning: Undefined variable $commenter in /var/www/vhosts/rcg.cat/httpdocs/wp-content/themes/neomag-child/functions.php on line 49
Warning: Trying to access array offset on value of type null in /var/www/vhosts/rcg.cat/httpdocs/wp-content/themes/neomag-child/functions.php on line 49
Warning: Undefined variable $aria_req in /var/www/vhosts/rcg.cat/httpdocs/wp-content/themes/neomag-child/functions.php on line 49