|
in Actualités de la conservation, n° 11, février-juillet 1999
AFNOR. Commission de normalisation "Identification et numérotation des documents"
A l'heure où se développe la diffusion en ligne de documents de tous types, on assiste à l'explosion d'entreprises visant à identifier et rendre accessible automatiquement cette information volatile. Parmi elles se multiplient notamment les groupes de travail sur les métadonnées, tant au sein des organismes traditionnels de normalisation (tels l'ISO ou l'IFLA) que dans les organismes plus particulièrement liés à des projets sectoriels (NASA, SDMI ou SMPTE) ou les instances réglementant l'Internet (W3 Consortium, IETF).
Le terme de métadonnées (forme française retenue pour metadatas) qui envahit la littérature professionnelle mérite encore d'être défini :
les métadonnées sont des données (informations structurées) sur des données, comme l'étaient déjà, informations textuelles associées aux produits documentaires traditionnels, les tables des matières, les index, les glossaires, les modes d'emplois ou les notices bibliographiques. Les métadonnées représentent aujourd'hui cette même "information secondaire" appliquée à une ressource électronique en ligne. Ce sont en effet les ressources du web qui, les premières, ont eu recours à cette notion et à ce terme.
Ce qui définit essentiellement une métadonnée par rapport à toute donnée documentaire ou bibliographique traditionnelle, c'est qu'elle est disponible conjointement (consubstanciellement pourrait-on dire) à la donnée qu'elle identifie et gère à la fois.
A cette première convergence essentielle entre la métadonnée et la donnée, s'ajoute le rapprochement des divers types de données envisagées. Les frontières tombent entre les médias (texte, image et sons), les objets documentaires (sites web, livre, œuvre ou paragraphe) et les types d'information : contenus, caractéristiques techniques, propriétés juridiques et conditions commerciales.
Les principaux domaines aujourd'hui concernés par les métadonnées relèvent de trois classes essentielles :
A l'intersection de ces classes de métadonnées se développe le terrain de l'identification (par numérotation, marquage, tatouage...) qui devient un enjeu particulièrement stratégique.
On trouve trace de la variété de ces domaines dans celle des milieux professionnels qui produisent des systèmes de métadonnées et commencent parfois à les échanger.
Les milieux traditionnels de la gestion de l'information : ceux qui la produisent et la diffusent (auteurs, interprètes, producteurs, éditeurs, diffuseurs) ; ceux qui la collectent et la traitent dans les bibliothèques, les archives, les musées, les centres de documentation.
Le monde des technologies de l'information : experts de l'informatique (hard et soft), des télécommunication ou de l'audiovisuel. De cet ensemble s'est dégagé et constitué le consorsium du web.
Imposés justement par le développement du web, ce sont les besoins nés de la diffusion en ligne de ressources sous forme numérique qui induisent une stratégie globale pour établir des standards communs et aux ressources et aux métadonnées.
De quelque classe qu'elles relèvent ou de quelque groupe professionnel qu'elles émanent, les métadonnées partagent des propriétés fondamentales liées à ce qu'elles articulent les aspects physique (signal), syntaxique (signe) et sémantique (sens) de l'information.
Les schémas d'organisation de métadonnées se caractérisent en effet par la globalité et la généricité des notions ou objets qu'ils traitent, par la souplesse des relations logiques qu'ils utilisent et par la généralité des outils et techniques qu'ils mettent en œuvre permettant que la ressource et sa metadonnée soient disponibles simultanément selon des procédures communes. Cette logique d'ensemble que partagent les diverses représentations de métadonnées se manifeste notamment par une terminologie propre (à l'origine et parfois encore exclusivement anglophone).
On y distingue, du plus générique au plus spécifique, les niveaux suivants :
Fort de ces propriétés communes - et malgré des conflits d'intérêts exacerbés par les enjeux - un mouvement de convergence se dessine qui correspond à la convergence des données elles-mêmes dans le contexte numérique.
Dans chacune des différentes classes de métadonnées (bibliographique, juridique, technique), se dégagent des schémas dominants.
La sphère bibliographique
Dans cette sphère c'est, comme schémas logiques d'organisation des données, le recours au standard Z 3950 pour établir une connexion entre fichiers hétérogènes. L'adoption de RDF comme structuration commune associant données et métadonnées selon plusieurs statuts : des métadonnées encapsulées dans les données (comme dans Dublin core) ou des métadonnées englobant les données (comme dans EAD), des métadonnées externes qui accompagnent les données, des métadonnées indépendantes et utilisables seules (celles que gèrent le champ 856 des formats US et UNIMARC).
Parmi les modèles de structuration sémantique des données, on voit le succès d'un modèle commun apte à répertorier et présenter les métadonnées propres à un contexte donné : la DTD, répertoriant et balisant pour une classe de documents (les collections d'archives pour EAD) les "éléments", "attributs" et "entités". On peut suivre également le succès du Dublin Core et la référence qui en est faite tant dans les travaux de MPEG7 (réunissant les spécialistes de l'informatique et de l'audiovisuel) ou du MMI (propre à la communauté des musées).
En matière de structuration syntaxique, on constate l'élaboration de syntaxes d'encodage fondées sur SGML pour la production de documents : HTML pour celles des pages Web sur Internet, XML.
La sphère juridique :
Cette sphère de métadonnées gérant des droits d'accès et des conditions d'usage reste parcourue des points de vues encore très différenciés des divers acteurs de l'économie de l'information. On voit les producteurs phonographiques se regrouper autour de l'initiative SDMI, les éditeurs s'appliquer à promouvoir le DOI, les auteurs appuyer le groupe Indecs, les producteurs cinématographiques se déterminer pour l'ISAN. Cependant, l'industrie de la radio et de la télévision, cherche elle aussi, à développer sa propre stratégie au sein de la SMPTE ou de l'EBU.
OAIS
Dans la sphère technique des métadonnées de préservation, les convergences s'affirment à travers une référence quasi universelle au modèle de l'OAIS.
Né pour répondre aux besoins d'une gestion de masse des données (originairement numériques) de la recherche spatiale et aéronautique, ce système rencontre aujourd'hui les préoccupations des bibliothèques et des archives en matière de stratégie de collecte, traitement et conservation des données numériques qu'elles recueillent ou produisent de plus en plus. Les programmes élaborés pour leur bibliothèque numérique par la National Library of Australia (PANDORA) ou la British Library s'en inspirent. Il vaut également pour le groupe de travail "Preservation issues of metadata" qui s'est constitué en avril 1997 au sein du RLG afin d'identifier les métadonnées requises pour maintenir l'accès aux fichiers numériques (de documents ou de notices bibliographiques) que produisent les partenaires de ce catalogue collectif international. En Europe, il est promu depuis 1998 par le groupe CURL.
Le modèle OAIS se présente d'abord comme une taxinomie de classes d'objets d'information archivés. Il distingue ainsi entre " content information " (tout ce qui identifie et définit la donnée), " representation information " (tel le format d'encodage de la donnée), " preservation description information " (tels le contexte de la création et le processus de numérisation, l'authentification, la granularité, l'évolution des formats… de la donnée), " packaging information " (tel le support physique de la donnée) et " descriptive information " (tels l'identification, le signalement et l'analyse du sens de la donnée). A partir de ces classes, l'OAIS propose une structure logique de construction de l'information, en assurant l'accessibilité selon deux modalités essentielles : repérer un objet d'information numérique et conserver ce repère dans le temps ; sélectionner et consulter les aspects pertinents de l'objet numérique ainsi repéré.
Ce qui donc constitue aujourd'hui le fondement conceptuel des métadonnées adaptées à la conservation, dans les contextes les plus techniques, fait bien apparaître la diversité des composantes des métadonnées : bibliographique, juridique, technique.
Parallèlement à ces rapprochements de fait, se développent des actions plus volontaristes visant à promouvoir la production et l'utilisation des métadonnées et, donc, à faire converger aussi les réflexions et les travaux. En avril 1999, placé sous l'égide de la Communauté européenne, le troisième Metadata workshop and concertation meeting, avançait les principes suivants. Que pour les documents électroniques et toutes les ressources en lignes produits aujourd'hui, existe un urgent besoin de systèmes et d'outils servant à créer et maintenir des métadonnées et qu'un effort de recherche doit être consenti en ces domaines. Ces sujets étant complexes et faisant appel à des expertises multiples, allant de l'information bibliographique, au commerce électronique et aux technologies de l'informatique et de la télécommunication…, il est nécessaire de dégager les dénominateurs communs à ces domaines et à leurs exigences respectives. De même la Communauté européenne soutient la réalisation de projets s'appliquant à répertorier, sinon coordonner, les initiatives en matières de métadonnées juridiques (Indecs) ou à fédérer les problématiques des éditeurs et des agences bibliographiques pour le signalement des ressources électroniques (Biblink). Elle a fait de leur archivage et de leur conservation à long terme, l'objectif du projet Nedlib, entrepris en janvier 1998 par douze partenaires investis de la mission de dépôt légal, et, pour asseoir cette construction méthodologique, a choisi le modèle de l'OAIS tel que développé à travers le projet CEDARS.
L'évolution impose un décloisonnement des instances et des champs de la normalisation et un effort de mise en cohérence des schémas de pensée, à travers des structures de travail renouvelées. Les outils et méthodes sont non seulement désormais multimédias (c'est-à-indépendants des médias) mais aussi multifonctionnels intégrant production, description et accès aux métadonnées d'un côté, aux données primaires elles-mêmes de l'autre. Par ailleurs en plus d'être "virtuelle", l'information sous forme électronique est mobile et impose d'identifier un "état" du document avant même de le décrire. La hiérarchie tend à s'inverser au profit du document logique sur le document physique et une stratégie de la conservation à les maîtriser ensemble mais indépendamment l'un de l'autre.
|
|
Elizabeth Giuliani, Département de l'audiovisuel