En al año 2002 se dio inicio al primer proyecto de digitalización de contenidos de la Cartoteca del Institut Cartogràfic de Catalunya (ICC), y para ello se elaboraron las primera propuestas relativas a los parámetros de escaneo y metadatos. Fruto de ese primer esfuerzo se inauguró en el año 2003 en la web del ICC un apartado específico con la primera versión de un catálogo online, de nombre Atlántida, que en ese momento contaba con 1.000 mapas digitalizados, escogidos de entre los más de 200.000 mapas que componían los fondos de la Cartoteca. Estos mapas se mostraban a baja resolución acompañados por unos breves metadatos no estandarizados. Paralelamente, se presentó por esas fechas una primera versión de la Cartoteca Digital, compuesta por 50 mapas de Catalunya de los siglos XVII hasta el XX, en alta resolución y en formato MrSID. Más adelante fueron añadidos al catálogo de productos de la tienda del ICC, pudiendo ser adquiridos como reproducciones en soporte papel.

En el año 2006 el proyecto de digitalización de la Cartoteca cobró nuevo impulso con la adquisición de un escáner Metis modelo DRS2A0, que dispone de una área útil de escaneo de 120×180 cm a 300 ppp, instalado y operado en la propia Cartoteca junto con dos equipos más modestos dedicados a la digitalización de fotografías y documentos. Ello permitió a finales de ese mismo año poner en marcha dos colecciones digitales dentro del proyecto de la Memoria Digital de Catalunya (MDC). De esta manera iniciamos las pruebas con el software CONTENTdm, elegido por el Consorcio de Bibliotecas Universitarias de Catalunya (CBUC) para dar soporte al MDC. A la vista de los resultados, muy positivos tanto en el aspecto de la digitalización como en el de la difusión, se creó un área interna de digitalización dentro de la estructura de la Cartoteca, con la misión de digitalizar todos los fondos cartográficos y documentales de la Cartoteca (mapas, fotografías y documentos) y hacerlos accesibles en Internet.

Una de las primeras tareas consistió en realizar una valoración de las distintas alternativas existentes en el mercado de los gestores de colecciones. Se decidió la adquisición del mismo software CONTENTdm utilizado por el CBUC, y se revisó la mapificación de los metadatos decidida en el 2002 y corregida dentro del proyecto de la Memòria Digital de Catalunya en el 2006, para adaptarla a las necesidades propias de la Cartoteca.

El 1 de noviembre de 2007 se inauguró el sitio online de la Cartoteca Digital1, con casi 10.000 mapas y fotografías, que en febrero de 2008 ya pudieron descargarse gratuitamente en alta resolución a 300 ppi. En noviembre de 2010, las colecciones digitales de la Cartoteca Digital suman más de 30.000 objetos en línea y cada año se añaden nuevas colecciones y nuevos objetos a las colecciones existentes.

1. ¿Metadatos?

La típica definición de metadatos es `los datos sobre los datos´, es decir, el conjunto de información estructurada que describe un recurso. De forma más específica, en este artículo utilizaremos el término metadato como la descripción de los objetos digitales creados a partir de la digitalización de un original en papel, es decir, del documento original. Por lo tanto, recogeremos información tanto sobre el documento original y su contenido intelectual (título, autor, fecha de creación…) como del objeto digital (se trata de un archivo en formato .jpeg, publicado en Internet por el Institut Cartográfic de Catalunya).

La tarea de metacatalogar partiendo de catálogos o inventarios propios, consiste en adaptar los contenidos a un nuevo formato. Como afirma Mary Larsgaard2: `metacatalogar es como poner vino viejo en una botella nueva´. Éste conjunto de información no sólo nos tiene que ayudar a identificar un recurso, sino también a gestionarlo y compartirlo con otras organizaciones. En la bibliografía podemos encontrar muchas clasificaciones, pero estableceremos una primera aproximación según la función de los metadatos:

Tipología de metadatos según su función:

TIPO    OBJETIVO  ELEMENTOS
 Metadades
descriptivas
 Descripción, identificación y descubrimiento de recursos.  Identificador, título, autor, lengua, palabras clave, medidas, URL…
 Metadades
estructurales
 Informar sobre la estructura interna de los recursos.
Describir la relación entre diferentes objetos (el plano X forma parte
del proyecto Y…).  
 Índice, tabla de contenidos, capítulos, secciones, páginas…
 Metadades
administrativas  
 Gestionar las colecciones.
Informar sobre los derechos de autor.
 Derechos de autor: copia, reproducción, difusión,…
Restricciones de uso.
 Metadades
técnicas
 Datos técnicos para la gestión y manipulación de los objetos
digitales.
Fundamentales para la preservación a largo plazo.
  Fecha de digitalización, resolución, modelo de escáner, formato
del máster, formato de distribución,…

2. Cómo adaptamos el estándar Dublin Core a nuestras necesidades

Dublin Core (DC) es uno de los estándares de metadatos para la descripción de objetos digitales más veteranos (1995), surgido de un grupo de trabajo sobre normalización de datos celebrado en Dublin (Ohio). Desde 2003 también es una norma internacional (IS0 15836) y es mantenido por la Iniciativa de Metadatos Dublin Core3 (DCMI) cuyo objetivo es fomentar la interoperabilidad de los datos mediante el uso de estándares.

Las ventajas principales de DC son:

  • Interdisciplinariedad: la semántica de los elementos DC fue establecida y es mantenida por expertos internacionales procedentes de disciplinas diversas como la tecnología, la biblioteconomía, los museos o la lingüística.
  • Flexibilidad: es adaptable a cualquier tipo de documento digital (texto, imágenes, audio, vídeo, multimedia…)
  • Interoperabilidad con otros catálogos: existen múltiples tablas de equivalencias y pasarelas entre DC y casi cualquier otro estándar de metadatos. Además, su sencillez propicia la creación de nuevas equivalencias con cualquier esquema. La Oficina de Estandarización de la Library of Congress mantiene las correspondencias entre MARC 21 y DC4, pero hay otra muchos crosswalks entre DC y otros esquemas: EAD, ISAD (G), FDGC, ISO 19115…
  • Globalidad: DC tiene una personalidad internacional ya que es utilizado por organizaciones de todo el mundo. Algunos de los softwares más populares para la gestión de bibliotecas digitales (DSpace, Fedora, CONTENTdm…) incorporan la utilidad de mapear los campos con elementos estándar DC.

El esquema DC contempla dos niveles de profundidad: simple y cualificado. 15 elementos básicos conforman el nivel simple, siendo todos ellos opcionales y repetibles, es decir, pueden ser usados tantas veces como sea necesario.

Los cualificadores funcionan como los adjetivos de los elementos simples, refinando su significado pero no ampliándolo. Dublin Core utiliza una sintaxis muy sencilla: añadir después de un elemento simple su atributo unido tras un punto. Por ejemplo, coverage es un elemento básico del esquema susceptible de ser refinado con cualificadores como coverage.temporal o coverage.spatial.

DC tiene un principio fundamental conocido como `dumb down´ encargado de facilitar el intercambio de datos sin perder información. Se basa en que si un recolector de metadatos no contempla los cualificadores definidos en nuestras colecciones, bajará su nivel de especificación y almacenará la información bajo un elemento simple.

El reto es adaptar los metadatos seleccionados para ilustrar los objetos digitales de la manera más eficiente tanto para los usuarios que consulten nuestro repositorio digital como para su adaptación tras ser recolectados por otros sistemas externos.

Veamos el conjunto de metadatos que utilizamos en el ICC, los cuales están adaptados a las necesidades propias de nuestro material:

Los 15 elementos básicos de DC adaptados a la Cartoteca Digital del Institut Cartogràfic de Catalunya:

Etiqueta    Elemento5 Ejemplo de aplicación en la Cartoteca 
 Title Título del  documento original Título=” Plano de los alrededores de la ciudad de Barcelona y proyecto de su reforma y ensanche”
Título=”Canejan”
Núm. Hoja=”118b-10-8″
Buenas prácticas:
En las series cartográficas como el Ortofotomapa de Catalunya 1:5 000, mapeamos con Title tanto el título de la hoja como el número, aprovechando la repetitividad de los campos DC.
 Creator Persona o entidad responsable de la creación del documento original.

Autor=”Cerdà, Ildefons”

Buenas prácticas:
Cuando no disponemos de la información, es preferible dejarlo sin autor antes que introducir valores vacios como desconocido.

 Contributor   Persona o entidad que ha contribuido al contenido del documento original, como los editores, grabadores o impresores del documento original.

Otros autores=” Roca, Pere”

Buenas prácticas:
Igual que con creator, es preferible dejarlo sin autor antes que introducir valores vacios como desconocido.

 Date Fecha relacionada con el ciclo de vida tanto del documento original como del objeto digital,   según el cualificador: creación del contenido, disponibilidad en línea, fecha de modificación… recomienda usar para su codificación un formato normalizado de representación de fechas, como la norma ISO 86016. Año original [DC:date.create]=”=”1861″
Disponible desde [DC:date.available]=”2009-09-10″
Buenas prácticas:
Es muy recomendable adaptar los títulos de los campos al contenido (año de edición del original, año de vuelo, año de publicación digital…) para evitar la ambigüedad en nuestro repositorio.Esta precaución unida al uso de DC cualificado (date.created, date.available, date.modified, etc.) permite dotar de profundidad nuestros metadatos, a la vez que garantizamos su interoperabilidad.
 Coverage7 Alcance o extensión del documento original. Es habitual que incluya la localización espacial (topónimo o coordenadas geográficas) y temporal (años, periodos) de creación del contenido.

Area geográfica [DC:coverage.spatial*]=”Barcelona (Barcelonès)”

Buenas prácticas:
Coverage.temporal
: Después de muchas intentos de prueba y error, en la Cartoteca decidimos mapear los años de publicación del documento original bajo el elemento DC Date.

Según las recomendaciones de los expertos, bajo este elemento se recomienda incluir un periodo de tiempo o una era (Renacimiento, Barroco, Guerra Civil…).

 Subject Materia del contenido del documento original. Es habitual expresar la materia mediante palabras clave o descriptores procedentes de vocabularios controlados.

Materia=”Mapa”

Buenas prácticas:
En nuestro caso, realizamos una lista controlada propia con la tipología documental (mapa, fotografía, fotografía aérea, texto, globos) para todas las colecciones, con la intención de facilitar la búsqueda y la agrupación del material.

 Description Breve descripción del documento original. Descripción=”1 mapa, b/n. Topografia del pla de Barcelona que va ser la base sobre la que es va dibuixar el projecte d’Eixample de Cerdà.”
Dimensiones=”75 x 114 cm, sobre full de 86 x 125 cm”

Buenas prácticas:
Reciclar la información de nuestro inventario para enriquecer la descripción, y aprovechar que todos los campos DC son repetibles.
En nuestro caso, decidimos dejar separados los diferentes campos para agilizar el mantenimiento de los datos.
 Relation Referencia a un recurso relacionado. Se puede incluir más información mediante el uso de un atributo para especificar el tipo de relación que mantienen8: IsPartOf, IsVersionOf, IsBasedOn, Requires, HasFormat, IsReferencedBy Serie[DC.Relation.IsPartOf]=`Ortofotomapa de Catalunya 1:5 000 [v.1]”
In[DC.Relation.IsPartOf]=`Fons Cuyàs, http://cartotecadigital.icc.cat”
Buenas prácticas:
Para las series cartográficas publicadas de hoja en hoja, añadimos un campo con el título de la serie.
En todos los objetos digitales especificamos la colección digital a la cual
pertenece y un enlace a la Cartoteca Digital. Así, ningún objeto digital queda fuera de contexto
ni cuando es descargado por un usuario, ni cuando sus metadatos son recolectados por alguna organización externa.
 Source

Referencia al documento original del cual se deriva el objeto digital.

También puede informar de fuentes externas utilizadas para la catalogación del documento original.

Registro=”RM.267960″

Buenas prácticas:
Consideramos que este metadato era indispensable como unión a nuestra colección impresa indicar el núm. de registro (identificador unívoco dentro de nuestra colección). Este número nunca cambia y además nos ayuda a la localización exacta del nombre del objeto digital (filename).

Por otro lado, nuestras colecciones digitales no hacen referencia a las signaturas y topográficos de la colección de documentos originales, especialmente por el costoso mantenimiento que supone.

 Identifier Identificador unívoco del objeto digital dentro de la colección del responsable de la publicación digital del objeto (Publisher).Por ejemplo, una url del objeto en una biblioteca digital, el identificador de un ejemplar del catálogo o el ISBN de un libro. Buenas prácticas:
Los recolectores OAI pueblan en este elemento cuando recogen los metadatos con la URI del objeto digital.
 Language Lengua del documento original. La recomendación es utilizar una lista controlada de códigos de idiomas como la ISO 639-29 mantenida por la Library of Congress. En la Cartoteca Digital no contemplamos este elemento, ya que en nuestros instrumentos de descripción no tenemos recogida esta información.
 Type Naturaleza o género del objeto digital. Se recomienda el uso de una lista controlada para mantener su exactitud, como el DCMI Type Vocabulary10.

Tipo de recurso=”Imatge”

Buenas prácticas:
Se recomienda el uso de DCMI Type Vocabulary aunque en nuestro caso lo adaptamos al catalán.

 Format La manifestación física o digital del objeto digital. Esta información puede ayudar a identificar si se requiere un software o hardware concreto para acceder al recurso.

También se recomienda un vocabulario controlado de términos, como MIME Media Types11.
Formato =”jpeg”
Resolución=”300 ppi”

Buenas prácticas:
Los metadatos técnicos los hemos mapeado con el elemento DC format en dos campos separados para facilitar la actualización.
 Publisher  Editor o entidad responsable de la publicación online del objeto digital.

Editor digital=”Institut Cartogràfic de Catalunya”

Buenas prácticas:
Ante la confusión entre los metadatos relativos al documento original y al objeto digital, decidimos buscar etiquetas para los campos que clarifiquen esta ambigüedad.

 Rights Información relativa a los derechos de propiedad intelectual sobre el objeto digital. Permiso de uso=”Còpia permesa amb finalitat d’estudi o recerca, citant la font Institut
Cartogràfic de Catalunya. Per a qualsevol altre ús cal demanar autorització.”

3. La información geográfica utilizando Dublin Core

Como hemos comentado anteriormente, DC es un estándar muy flexible que nos permite describir cualquier tipo de documento e información. En nuestro caso hemos dedicado especial atención a la adaptación de la información geográfica, pilar fundamental del material que forma parte de cualquier cartoteca.

Muchos métodos coexisten para identificar un lugar: topónimos, códigos postales, coordenadas de un punto, polígonos que trazan el perímetro…

En 2006, la Dublin Core Metadata Initiative difundió una recomendación para la descripción de coordenadas geográficas: DCMI box12. DCMI box especifica como estructurar de manera estándar geoinformación (coordenadas, proyección, topónimo…) y siempre se mapea contra el elemento básico coverage o el cualificado coverage.spatial. Algunas de las colecciones sobre Cataluña de la Cartoteca Digital ya incluyen estos geometadatos, como:

  • Ortofotomapa de Catalunya 1:5 000 [versión 1] (1985-1992)13: 6.332 hojas.

41_art11_01

  • Provincia de Barcelona 1:10 000, 1:5 000 y 1:2 000 (1966-1980)14: 2.108 hojas.

41_art11_02

Especificaciones del modelo de metadatos de información geográfica de la Cartoteca de Catalunya:

Campo de información geográfica de la Cartoteca Digital (ICC) 

    Elemento
Dublin Core

Descripción 
ALFANUMÉRICOS  

Área geográfica

Fuente de los datos:
– Catálogo de mapas antiguos de la Cartoteca (base de datos propia).
Inventarios y listas de series cartográficas mundiales.
Algunas colecciones especiales de mapas y fotografías estaban inventariadas, pero el área geográfica fue normalizada para su
publicación en la Cartoteca digital.

 Coverage.spatial   

Topónimo representativo del contenido.

Ejemplos:
Área geográfica: Balcans (península)
Área geográfica: Àfrica (est)

Se recomienda el uso de un vocabulario controlado como una lista de encabezamientos de materia o un nomenclátor.

En la Cartoteca Digital utilizamos:
– Nomenclátor Oficial de Toponímia major de Catalunya
– Atles de l’Enciclopèdia Catalana
– Lista de países de la ONU
– Llista d’encapçalament de matèries en català (LEMAC)

Área geográfica alternativa

Fuente de los datos:
– A partir del campo `Área geográfica´ que incluye los términos aceptados, se creó un vocabulario controlado propio.

 Coverage.spatial

Campo oculto dónde se incluyen variaciones de los topónimos, como traducciones o variantes. Esta información ayuda a la localización del material, adaptándose a las posibles palabras búsqueda que podrían utilizar los usuarios.

Ejemplos:
Area geográfica: Estats Units d’Amèrica
Area geogràfica alternativa: EUA
Area geogràfica alternativa: EEUU

GEODATOS

Coordenadas de la imagen

Fuente de los datos:
Las coordenadas fueron extraídas de la información que proporciona la
herramienta de cálculo de mallas geodésicas del ICC.

Por lo tanto, por ahora sólo se ha aplicado a las series que comparten
la misma retícula.

 Coverage.spatial Según la sintaxis propuesta por la recomendación DCMI Box,
en este campo se recogen las coordenadas de las cuatro
esquinas del mapa, la proyección y la unidad de medida.
Ejemplo:
northlimit=4568229.27; southlimit=4565869.16; westlimit=351730.04;
eastlimit=354057.49; projection=UTM zone 31 North; units=m
Centro de la hoja

Fuente de los datos:
Las coordenadas fueron extraídas de la información que proporciona la herramienta de cálculo de mallas geodésicas del ICC.
Por lo tanto, por ahora sólo se ha aplicado a las series que comparten
la misma retícula.
 Coverage.spatial

En este campo se recogen las coordenadas del centro de la hoja, la proyección y la unidad de medida, respetando el formato recomendado por la DCMI box.

Ejemplo:
X=352870.27; Y=4567049.12; projection=UTM zone 31 North; units=m

Un documento se puede geolocalizar (añadir las coordenadas geográficas de un solo punto) o se puede georeferenciar (acomodar el documento al terreno real mediante la transformación de la imagen a partir de 3 o más puntos de control). Sin embargo la georeferenciación precisa de tiempo y conocimientos tanto técnicos como teóricos de uso de herramientas SIG, y ello la hace de difícil aplicación dentro de las tareas diarias de catalogación.

Para facilitar una geolocalización fácil y efectiva de los documentos seria necesario disponer de una lista normalizada de topónimos junto con sus coordenadas para uso común en colecciones digitales, accesible mediante herramientas simples. Esta lista funcionaria como un vocabulario controlado o diccionario de lugares, y debería ser mantenida por alguna autoridad geográfica y compartida por toda la comunidad. Al ser de uso común en todas las colecciones sería posible desarrollar buscadores geográficos en cualquier colección online.

Otro método de obtención de información geográfica pasaría por la extracción automática de coordenadas a partir de los documentos digitales, bien sea en el mismo momento de la digitalización o a posteriori. Actualmente en el ICC estamos experimentando con esta recolección automática de los metadatos geográficos con la ayuda de algoritmos de visión por computador, obteniendo resultados muy positivos. Una herramienta de este tipo permitiría la carga masiva de materiales digitales ya georeferenciados, y el consumo de los mismos en globos virtuales y otras herramientas avanzadas de visualización de contenidos.

4. Conclusiones

La adaptación del estándar DC para la consecución de un esquema sólido para la descripción de contenidos digitales variará según los materiales a describir y para cada institución. Y esta adaptación, orientada inicialmente a la mera descripción de los materiales, no es inmutable y exigirá que la revisemos tanto por los nuevos usos y presentación de nuestros datos como por las distintas necesidades de los recolectores de los mismos.

La utilización de estándares abiertos garantiza la interoperabilidad y el intercambio de datos, que redunda en mayor beneficio de la comunidad. La diseminación de los datos utilizando el protocolo OAI-PMH promovido por la Open Archives Initiative permite que otros recolecten y difundan nuestros contenidos, traspasando nuestro ámbito natural de actuación. En la actualidad, gracias al uso de OAI-PMH en nuestra plataforma de difusión y a grandes recolectores de metadatos internacionales como OAIster, las colecciones de la Cartoteca Digital pueden ser descubiertas desde Eureca, Hispana, Digmap, Trove y Worldcat.

Añadir “dónde” a los materiales cartográficos convierte los documentos en georeferenciados y por tanto reutilizables en otros ámbitos; facilita tanto la búsqueda como el descubrimiento; y permite también acercarlos a las IDE contribuyendo a su difusión. Los metadatos geográficos no son fáciles de obtener con las herramientas actuales, pero permiten enriquecer los catálogos añadiendo una nueva dimensión a los objetos digitales. Y aunque tener mejores metadatos implica añadir complejidad al esquema de descripción, ello redunda siempre en mejores explotaciones de esos contenidos.

Notas
1. http://cartotecadigital.icc.cat
2. Larsgaard, Mary. Electronic cartographic materials: cataloguing and metacataloguing. ICC: Barcelona, 2004. Accessible a: http://biblioteca.uam.es/cartoteca/documentos/larsgaard_catala.pdf [Consulta: 3 setembre 2009]
3. Dublin Core Metadata Initiative: http://dublincore.org/ [Consulta: 10 novembre 2010].
4. Dublin Core to MARC Crosswalk: http://www.loc.gov/marc/dccross.html
. También publican la tabla de equivalencias inversa MARC to Dublin Core Crosswalk: http://www.loc.gov/marc/marc2dc.html [Consulta: 11 noviembre 2010. Última actualización: 24 abril 2008].
5. Traducciones de las definiciones de los elementos realizada por la Cartoteca a partir de la guía de usuario de DCMI: http://dublincore.org/documents/usageguide/elements.shtml
 [Consulta: 10 noviembre 2010].
6. Date and Time Formats, W3C note: http://www.w3.org/TR/NOTE-datetime
 [Consulta: noviembre 2010].
7. Ver punto 4, `Dublin Core y la información geográfica´.
8. DC Relation Element: http://dublincore.org/documents/relation-element/
 [Consulta: 10 noviembre 2010].
9. ISO 639-2, Codes for the representation of names of languages: http://www.loc.gov/standards/iso639-2/
10. DCMI Type Vocabulary: http://dublincore.org/documents/dcmi-type-vocabulary/
 [Consulta: 10 noviembre 2010].
11. Para formatos multimedia se recomienda el uso de DCMI Box Encoding Scheme: http://dublincore.org/documents/dcmi-box/ [Consulta: noviembre 2010]
12. DCMI Box Encoding Scheme: http://dublincore.org/documents/dcmi-box/
 [Consulta: noviembre 2010]
13. http://www.iana.org/assignments/media-types/
 [Consulta: noviembre 2010]
14. http://cartotecadigital.icc.cat/cdm4/custicc/htopobcn.html

Bibliografía

Enlaces