Des normes
pour les ressources électroniques en ligne

in Actualités de la conservation, n° 11, février-juillet 1999

AFNOR. Commission de normalisation "Identification et numérotation des documents"

 

A l'heure où se développe la diffusion en ligne de documents de tous types, on assiste à l'explosion d'entreprises visant à identifier et rendre accessible automatiquement cette information volatile. Parmi elles se multiplient notamment les groupes de travail sur les métadonnées, tant au sein des organismes traditionnels de normalisation (tels l'ISO ou l'IFLA) que dans les organismes plus particulièrement liés à des projets sectoriels (NASA, SDMI ou SMPTE) ou les instances réglementant l'Internet (W3 Consortium, IETF).

 

Le terme de métadonnées (forme française retenue pour metadatas) qui envahit la littérature professionnelle mérite encore d'être défini :

les métadonnées sont des données (informations structurées) sur des données, comme l'étaient déjà, informations textuelles associées aux produits documentaires traditionnels, les tables des matières, les index, les glossaires, les modes d'emplois ou les notices bibliographiques. Les métadonnées représentent aujourd'hui cette même "information secondaire" appliquée à une ressource électronique en ligne. Ce sont en effet les ressources du web qui, les premières, ont eu recours à cette notion et à ce terme.

 

Divers niveaux d'information

Ce qui définit essentiellement une métadonnée par rapport à toute donnée documentaire ou bibliographique traditionnelle, c'est qu'elle est disponible conjointement (consubstanciellement pourrait-on dire) à la donnée qu'elle identifie et gère à la fois.

A cette première convergence essentielle entre la métadonnée et la donnée, s'ajoute le rapprochement des divers types de données envisagées. Les frontières tombent entre les médias (texte, image et sons), les objets documentaires (sites web, livre, œuvre ou paragraphe) et les types d'information : contenus, caractéristiques techniques, propriétés juridiques et conditions commerciales.

 

Diverses classes de métadonnées

Les principaux domaines aujourd'hui concernés par les métadonnées relèvent de trois classes essentielles :

  • celle du champ "classique" des informations bibliographiques qui permettent d'accéder à un document en le signalant, en le décrivant ou en en interprétant le contenu. Ce sont les métadonnées de consultation du document (metadatas for resource discovery) ;
  • celle qui ressortit aux contraintes légales et aux conditions d'accès. Ce sont les métadonnées juridiques d'usage et droits (metadatas for asset management) ;
  • celle qui touche aux caractéristiques physiques de l'information et de son accès : son codage, son stockage, sa transmission, sa consultation, sa maintenance. Ce sont les métadonnées de préservation (metadatas for preservation), métadonnées techniques liées à la gestion du cycle de vie de l'information, sa création, sa mise à jour et son archivage.

A l'intersection de ces classes de métadonnées se développe le terrain de l'identification (par numérotation, marquage, tatouage...) qui devient un enjeu particulièrement stratégique.

 

Retour haut de page

Divers producteurs de métadonnées

On trouve trace de la variété de ces domaines dans celle des milieux professionnels qui produisent des systèmes de métadonnées et commencent parfois à les échanger.

Les milieux traditionnels de la gestion de l'information : ceux qui la produisent et la diffusent (auteurs, interprètes, producteurs, éditeurs, diffuseurs) ; ceux qui la collectent et la traitent dans les bibliothèques, les archives, les musées, les centres de documentation.

Le monde des technologies de l'information : experts de l'informatique (hard et soft), des télécommunication ou de l'audiovisuel. De cet ensemble s'est dégagé et constitué le consorsium du web.

Imposés justement par le développement du web, ce sont les besoins nés de la diffusion en ligne de ressources sous forme numérique qui induisent une stratégie globale pour établir des standards communs et aux ressources et aux métadonnées.

 

Des propriétés communes

De quelque classe qu'elles relèvent ou de quelque groupe professionnel qu'elles émanent, les métadonnées partagent des propriétés fondamentales liées à ce qu'elles articulent les aspects physique (signal), syntaxique (signe) et sémantique (sens) de l'information.

Les schémas d'organisation de métadonnées se caractérisent en effet par la globalité et la généricité des notions ou objets qu'ils traitent, par la souplesse des relations logiques qu'ils utilisent et par la généralité des outils et techniques qu'ils mettent en œuvre permettant que la ressource et sa metadonnée soient disponibles simultanément selon des procédures communes. Cette logique d'ensemble que partagent les diverses représentations de métadonnées se manifeste notamment par une terminologie propre (à l'origine et parfois encore exclusivement anglophone).

On y distingue, du plus générique au plus spécifique, les niveaux suivants :

  • l'architecture générale d'organisation (framework) ou structuration logique de données servant de protocole aux échanges entre systèmes. C'est à cet ensemble qu'on peut rattacher par exemple le Warwick Framework, "container architecture for aggregating metadata objects for interchange" à l'œuvre dans le Dublin core, le RDF qui fonde les ressources du Web ou le standard Z 3950 ;
  • le modèle (model) ou structuration sémantique de données. Ainsi les " Functional requirements for bibliographic ", information par quoi l'IFLA relaie l'ancien ISBD, le Dublin core produit par OCLC, CIMI issu des musées, OAIS émanant de l'aéronautique et de la recherche spatiale ou MPEG7... ;
  • le format (language) ou structuration syntaxique de données : SGML et XML produits par les éditeurs de documents, EAD et MARC mis au point pour les bibliothèques et les archives.

 

Retour haut de page

Des convergences de fait

Fort de ces propriétés communes - et malgré des conflits d'intérêts exacerbés par les enjeux - un mouvement de convergence se dessine qui correspond à la convergence des données elles-mêmes dans le contexte numérique.

Dans chacune des différentes classes de métadonnées (bibliographique, juridique, technique), se dégagent des schémas dominants.

 

La sphère bibliographique

Dans cette sphère c'est, comme schémas logiques d'organisation des données, le recours au standard Z 3950 pour établir une connexion entre fichiers hétérogènes. L'adoption de RDF comme structuration commune associant données et métadonnées selon plusieurs statuts : des métadonnées encapsulées dans les données (comme dans Dublin core) ou des métadonnées englobant les données (comme dans EAD), des métadonnées externes qui accompagnent les données, des métadonnées indépendantes et utilisables seules (celles que gèrent le champ 856 des formats US et UNIMARC).

Parmi les modèles de structuration sémantique des données, on voit le succès d'un modèle commun apte à répertorier et présenter les métadonnées propres à un contexte donné : la DTD, répertoriant et balisant pour une classe de documents (les collections d'archives pour EAD) les "éléments", "attributs" et "entités". On peut suivre également le succès du Dublin Core et la référence qui en est faite tant dans les travaux de MPEG7 (réunissant les spécialistes de l'informatique et de l'audiovisuel) ou du MMI (propre à la communauté des musées).

En matière de structuration syntaxique, on constate l'élaboration de syntaxes d'encodage fondées sur SGML pour la production de documents : HTML pour celles des pages Web sur Internet, XML.

 

La sphère juridique :

Cette sphère de métadonnées gérant des droits d'accès et des conditions d'usage reste parcourue des points de vues encore très différenciés des divers acteurs de l'économie de l'information. On voit les producteurs phonographiques se regrouper autour de l'initiative SDMI, les éditeurs s'appliquer à promouvoir le DOI, les auteurs appuyer le groupe Indecs, les producteurs cinématographiques se déterminer pour l'ISAN. Cependant, l'industrie de la radio et de la télévision, cherche elle aussi, à développer sa propre stratégie au sein de la SMPTE ou de l'EBU.

 

OAIS

Dans la sphère technique des métadonnées de préservation, les convergences s'affirment à travers une référence quasi universelle au modèle de l'OAIS.

Né pour répondre aux besoins d'une gestion de masse des données (originairement numériques) de la recherche spatiale et aéronautique, ce système rencontre aujourd'hui les préoccupations des bibliothèques et des archives en matière de stratégie de collecte, traitement et conservation des données numériques qu'elles recueillent ou produisent de plus en plus. Les programmes élaborés pour leur bibliothèque numérique par la National Library of Australia (PANDORA) ou la British Library s'en inspirent. Il vaut également pour le groupe de travail "Preservation issues of metadata" qui s'est constitué en avril 1997 au sein du RLG afin d'identifier les métadonnées requises pour maintenir l'accès aux fichiers numériques (de documents ou de notices bibliographiques) que produisent les partenaires de ce catalogue collectif international. En Europe, il est promu depuis 1998 par le groupe CURL.

Le modèle OAIS se présente d'abord comme une taxinomie de classes d'objets d'information archivés. Il distingue ainsi entre " content information " (tout ce qui identifie et définit la donnée), " representation information " (tel le format d'encodage de la donnée), " preservation description information " (tels le contexte de la création et le processus de numérisation, l'authentification, la granularité, l'évolution des formats… de la donnée), " packaging information " (tel le support physique de la donnée) et " descriptive information " (tels l'identification, le signalement et l'analyse du sens de la donnée). A partir de ces classes, l'OAIS propose une structure logique de construction de l'information, en assurant l'accessibilité selon deux modalités essentielles : repérer un objet d'information numérique et conserver ce repère dans le temps ; sélectionner et consulter les aspects pertinents de l'objet numérique ainsi repéré.

Ce qui donc constitue aujourd'hui le fondement conceptuel des métadonnées adaptées à la conservation, dans les contextes les plus techniques, fait bien apparaître la diversité des composantes des métadonnées : bibliographique, juridique, technique.

 

Retour haut de page

Des projets communs

Parallèlement à ces rapprochements de fait, se développent des actions plus volontaristes visant à promouvoir la production et l'utilisation des métadonnées et, donc, à faire converger aussi les réflexions et les travaux. En avril 1999, placé sous l'égide de la Communauté européenne, le troisième Metadata workshop and concertation meeting, avançait les principes suivants. Que pour les documents électroniques et toutes les ressources en lignes produits aujourd'hui, existe un urgent besoin de systèmes et d'outils servant à créer et maintenir des métadonnées et qu'un effort de recherche doit être consenti en ces domaines. Ces sujets étant complexes et faisant appel à des expertises multiples, allant de l'information bibliographique, au commerce électronique et aux technologies de l'informatique et de la télécommunication…, il est nécessaire de dégager les dénominateurs communs à ces domaines et à leurs exigences respectives. De même la Communauté européenne soutient la réalisation de projets s'appliquant à répertorier, sinon coordonner, les initiatives en matières de métadonnées juridiques (Indecs) ou à fédérer les problématiques des éditeurs et des agences bibliographiques pour le signalement des ressources électroniques (Biblink). Elle a fait de leur archivage et de leur conservation à long terme, l'objectif du projet Nedlib, entrepris en janvier 1998 par douze partenaires investis de la mission de dépôt légal, et, pour asseoir cette construction méthodologique, a choisi le modèle de l'OAIS tel que développé à travers le projet CEDARS.

 

L'évolution impose un décloisonnement des instances et des champs de la normalisation et un effort de mise en cohérence des schémas de pensée, à travers des structures de travail renouvelées. Les outils et méthodes sont non seulement désormais multimédias (c'est-à-indépendants des médias) mais aussi multifonctionnels intégrant production, description et accès aux métadonnées d'un côté, aux données primaires elles-mêmes de l'autre. Par ailleurs en plus d'être "virtuelle", l'information sous forme électronique est mobile et impose d'identifier un "état" du document avant même de le décrire. La hiérarchie tend à s'inverser au profit du document logique sur le document physique et une stratégie de la conservation à les maîtriser ensemble mais indépendamment l'un de l'autre.

 

Retour haut de page

Résolution des sigles

  • CEDARSCURL-Exemplars in Digital ARchives
  • CIMI-Computer Interchange of Museum Information
  • CURL-Consortium of University Research Libraries
  • DOI-Digital Object Identifier
  • DTD-Definition of Type of Document
  • EBU-European Broadcasting Union
  • EAD-Encoding Archival Description
  • HTML-HyperText Markup Language
  • IETF-Internet Engineering Task Force
  • ISO-International Standard Organization
  • IFLA-International Federation of Library Associations and institutions
  • Indecs-Interoperability of Data in E-commerce Systems
  • ISAN-International Standard Audiovisual Number
  • ISBD-International standard for bibliographic description
  • MARC-Machine Readable Catalog
  • MPEG-Moving Picture coding Experts Group
  • NASA-National Aeronautics and Space Administration
  • Nedlib-Networked European Deposit Library
  • OAIS-Open archival information system
  • OCLC-On-line Computer Library Center
  • RDF-Ressource description framework
  • RLG-Research Libraries Group
  • SDMI-Secure Digital Music Intiative
  • SGML-Standard Generalised Markup Language
  • SMPTE-Society of Motion Picture and TElevision
  • UKOLNUK- Office for Library and information Networking
  • W3-World Wide Web
  • XML-eXtended Markup Language

 

Elizabeth Giuliani, Département de l'audiovisuel