Actualité - 8 décembre 2020

#FocusProjet : RefDivinités

Dyonisos | © Européana
RefDivinités est un des projets lauréats de l’appel à projets CollEx-Persée 2018-2019. Sans attendre la fin du projet, ce billet présente un premier bilan des opérations menées par la BIS, le traitement des données dans IdRef étant finalisé depuis fin juillet 2020.

Une collaboration fructueuse entre chercheurs et bibliothécaires

Au lancement du projet, 23 chercheurs/ses en Sciences de l’Antiquité, plus particulièrement spécialistes des religions du monde méditerranéen antique et de ses marges, ont été sollicités pour définir le corpus. Au-delà des divinités et héros du monde méditerranéen antique, le comité scientifique a décidé d’élargir ce corpus aux entités celtiques ou germaniques connues par des sources romaines. Par ailleurs, certaines aires civilisationnelles, sous-représentées jusqu’à présent, ont fait l’objet d’un enrichissement important comme par exemple les corpus hittite ou étrusque.

Le comité scientifique a par ailleurs été consulté à plusieurs reprises au cours du projet pour lever des ambiguïtés au sein des deux référentiels, par exemple, lorsqu’il n’existait qu’une seule notice d’autorité décrivant à tort deux personnages distincts.

Des questions de vocabulaire ont également été débattues. En effet, si pour un catalogueur, en attendant d’éventuelles évolutions normatives, divinités et héros sont traités en tant que notices d’autorité de type  «personne», les chercheurs s’accordent plus volontiers sur les termes de «puissances suprahumaines» ou de «figures». Pour autant, le cap du projet n’a pas varié. En effet, RefDivinités ne se veut pas un projet encyclopédique mais bien un projet à visée catalographique destiné à mettre à disposition des professionnels de l’information des données de référence pour une indexation fine des documents, et à optimiser leur signalement dans le Catalogue Sudoc et le Catalogue Collectif Indexé (CCI) du réseau FRANTIQ.

Un projet bien outillé

Pour mener à bien le projet RefDivinités, l’équipe de la BIS – et notamment Alyx Taounza-Jeminet, recrutée par la BIS pour la durée du projet – s’est appuyée sur une méthodologie et une gamme d’outils dédiés au traitement des données d’autorité :

  • au début du projet pour définir le corpus :

    • côté Abes : idref.fr pour explorer les données présentes dans IdRef, modélisées en RDF, et les extraire via des requêtes SPARQL ;
    • côté FRANTIQ : OpenTheso [1] pour explorer les données présentes dans PACTOLS et les extraire ;
  • tout au long du projet :

    • OpenRefine pour rassembler ces données en provenance de sources distinctes, les comparer, les manipuler et les enrichir des alignements entre IdRef, PACTOLS et Wikidata ;
  • à la fin du projet, pour mettre à niveau chacun des référentiels :

    • OpenTheso pour créer manuellement de nouvelles entités dans PACTOLS ;

    • WinIBW pour créer manuellement de nouvelles notices d’autorité dans IdRef, en ayant recours à des scripts utilisateurs pour s’assurer de l’homogénéité des données et se prémunir d’oublis d’intervention sur telle ou telle zone. Pour accompagner ces interventions manuelles exigées par l’évolution régulière du corpus,  il a été fait appel à la correspondante RAMEAU de la BIS pour effectuer les inévitables corrections ainsi que les  traitements en masse ponctuels

    • via OpenRefine et API pour le chargement en masse des identifiants IdRef et PACTOLS dans Wikidata

Focus sur le traitement documentaire dans IdRef

Le corpus est constitué de 663 notices d’autorité IdRef, soit 661 notices de type « personnes physiques » et 2 notices de type « familles » . Toutes les notices ont été taguées par l’ajout d’une zone UNIMARC A686 [2] comportant $aRefDivinités‎$cAppel à projets 2019‎$2Collex-Persée. Dans le cadre de ce projet, toutes les notices du corpus déjà présentes dans IdRef ont été enrichies et 135 notices d’autorité ont été créées.

L’enrichissement des notices d’autorité

  • Usage systématique des qualificatifs (UNIMARC A200$c) et révisions des données codées

Afin de typer ce corpus qui se trouvait noyé au milieu de 3,2 millions de personnes physiques, un qualificatif a systématiquement été utilisé pour préciser la qualité divine ou héroïque de l’entité décrite ainsi que l’aire civilisationnelle à laquelle elle appartient. De même, les données codées ont été revues et systématiquement reprises : langue, pays et dates ont été laissées vide, et le genre défini comme non applicable pour ces entités fictives.

L’usage d’un qualificatif dans le point d’accès autorisé de la notice d’autorité a un impact sur les notices bibliographiques. Il est visible dans les notices bibliographiques soit dans le bloc des responsabilités (UNIMARC B7XX) soit dans le bloc de l’indexation matière (UNIMARC B6XX), ce qui était le cas le plus fréquent pour ce corpus particulier. L’usager final bénéficie ainsi directement dans la notice bibliographique de ce point d’accès autorisé enrichi par l’ajout systématique du qualificatif.

Mais quel qualificatif saisir ? Le choix a été fait de ne pas bousculer les pratiques de saisie mais de parvenir, en s’appuyant sur les avis du conseil scientifique, à une certaine homogénéisation dans l’usage des qualificatifs comme le montre le graphique ci-dessous.

Les qualificatifs « divinité(s) grecque(s) / romaine(s) / égyptienne / étrusque(s) / mésopotamienne (…) » ainsi que « mythologie grecque / romaine / étrusque / mésopotamienne (…) » ont été privilégiés. Bien que le comité scientifique aurait souhaité les modifier par un qualificatif plus général de type «religion et mythologie xxx» ou «religion xxx», cette modification n’a pas été possible dans le cadre du projet. Cependant, cette proposition sera à prendre en compte dans le cadre du chantier de la Transition bibliographique.

  • La mention des sources (UNIMARC A810)

Une attention particulière a été apportée à la zone des sources, en particulier lors de la création de notices ex nihilo. Du fait que PACTOLS comporte des liens vers les notices bibliographiques référencées dans le catalogue de FRANTIQ, ce référentiel a été considéré comme une source d’information suffisante pour la création d’une notice d’autorité dans IdRef. Cependant, de manière générale, l’Abes a encouragé la BIS à enrichir les sources. Ainsi, il n’est pas rare qu’une notice du corpus ait plusieurs zones de sources, pour justifier l’ensemble des informations présentes dans la notice.

  • La désambiguïsation (UNIMARC A330)

Grâce à l’ajout de la zone de note A330 destinée tant à l’usager qu’au catalogueur, plusieurs dizaines de notices qui mêlaient auparavant deux entités (voire plus) ont été désambiguïsées. Par exemple, les deux Ajax héros de la Guerre de Troie sont désormais clairement distingués.

Ex : notice d’Ajax le Grand, fils de Télamon –https://www.idref.fr/029869382

Ex : notice d’Ajax le Petit, fils d’Oïlée, dit aussi Ajax de Locres – https://www.idref.fr/240425030

  • l’ajout de variante de noms et de formes parallèles (UNIMARC A400 et A700)

On constate que 537 notices sur 663 comportent des variantes de noms (A400) et/ou des formes parallèles (A700).

Ex : Anubis – https://www.idref.fr/031428800

Comme près de la moitié du corpus concerne la mythologie ou la religion grecque, la translittération a constitué un point de vigilance particulier du projet, en cohérence avec les recommandations du Guide de catalogage de la BnF (Kitcat) et du Guide Méthodologique Sudoc. Précisons qu’une note accompagne certaines translittérations divergeant des règles (comme ALA-LC, par exemple).

Ex : Jason – https://www.idref.fr/030620554

Les alignements (UNIMARC A0XX)

Un des objectifs de ce projet était d’offrir un basculement simplifié d’un référentiel à l’autre grâce à l’alignement des notices d’autorité IdRef vers les entités correspondantes issues de PACTOLS et Wikidata. Cet objectif a été atteint. Ainsi, à l’issue du projet :

  • toutes les notices du corpus disposent d’un lien vers le référentiel PACTOLS (UNIMARC A035), cet alignement ayant été réalisé dans les deux sens, ces entités dans PACTOLS ont désormais un lien vers IdRef
  • 98% des notices du corpus disposent d’un lien vers Wikidata, l’alignement étant également réciproque

De même, et selon la même logique :

  • 84% des notices d’IdRef disposent d’un lien vers l’identifiant VIAF
  • 64% des notices disposent d’un lien vers l’identifiant ARK BnF (UNIMARC A033) : ce taux est plus faible du fait que plus de la création pour les besoins du projet d’une centaine de notices n’ayant pas d’équivalent dans le catalogue de la BnF

Usage du corpus RefDivinités dans le Sudoc : photographie fin septembre 2020

Le graphique ci-dessous donne à voir l’usage des notices d’autorité du corpus appliqué au catalogue Sudoc : l’axe des abscisses correspond aux notices d’autorité du corpus et l’axe des ordonnées au nombre de points d’accès correspondant dans les notices bibliographiques du catalogue Sudoc. Il est important de garder à l’esprit que le catalogue Sudoc n’est qu’un des contextes d’utilisation des notices d’autorité IdRef. Sans surprise, on constate un effet de longue traîne :

  • 3% des notices du corpus alimentent entre 100 et 429 points d’accès dans les notices bibliographiques du Sudoc
  • 4% entre 50 et 99 points d’accès
  • 16% entre 10 et 49 points d’accès
  • 51% entre 2 et 9 points d’accès
  • 18% alimentent un seul point d’accès
  • 34% n’alimentent aucun point d’accès dans les notices bibliographiques Sudoc

Notons qu’avec 429 points d’accès provenant de 380 notices bibliographiques distinctes, la notice d’autorité du corpus qui remporte la palme du nombre de liens à des notices bibliographiques du Sudoc est celle de Dionysos – http://www.idref.fr/02739560X

Il sera intéressant de mesurer au fil du temps l’évolution de l’usage de ces notices dans le Sudoc.

Chantiers annexes

Un chantier de réindexation des notices bibliographiques est envisagé afin de faire basculer certaines références, par exemple suite à la création ou la désambiguïsation d’entités, vers les entités correspondantes dans IdRef comme dans PACTOLS.

Il restera également à poursuivre la réflexion en ce qui concerne les notices d’autorité RAMEAU n’ayant pas été directement traitées lors de cette mission. Il est prévu pour cela de s’appuyer sur les suggestions du comité notamment ce qui concerne classification, terminologie, risque confusion autour des entités plurielles. Cette réflexion se poursuivra dans le cadre du programme Transition bibliographique et du potentiel changement de statut de l’ensemble des entités du projet RefDivinités.

Par ailleurs, la BIS, FRANTIQ et l’Abes sont partenaires d’un nouveau projet Collex-Persée, financé dans le cadre de l’appel à projets 2020 : ArchéoRef Alignement (ArchéoAL) piloté par l’Institut français d’archéologie orientale (IFAO) du Caire, auquel participent les Écoles Françaises à l’Étranger, se propose d’opérer des alignements et des enrichissements similaires entre IdRef et PACTOLS, cette fois pour les données d’autorité géographiques correspondant aux sites archéologiques.

ArchéoAL s’appuiera sur la documentation produite dans le cadre du projet RefDivinités, dans une logique de réplicabilité.

Avantages pour les catalogueurs Sudoc et les utilisateurs d’IdRef

En termes d’interopérabilité entre référentiels, le résultat des alignements réalisés à l’occasion du projet RefDivinités est déjà opérationnel : depuis l’interface IdRef, l’usager peut rebondir facilement sur la page PACTOLS ou Wikidata liée. Il reste pour l’Abes à exploiter cette interopérabilité afin d’enrichir IdRef – et à terme data.idref.fr – de liens vers le catalogue du réseau FRANTIQ. Dans les prochains mois, l’Abes implémentera dans les pages IdRef concernées par le projet un encart FRANTIQ : l’affichage des références bibliographiques du catalogue FRANTIQ sera ainsi généré à la volée grâce à l’alignement des identifiants IdRef et PACTOLS. L’export Zotero d’IdRef gagnera ainsi en complétude.

Quant aux catalogueurs du réseau Sudoc, tous bénéficient du travail effectué par la BIS et chacun peut intervenir si besoin sur  les notices d’autorité elles-mêmes, en conformité bien entendu avec la philosophie du catalogage partagé : respect du travail déjà fait ; conservation des informations existantes notamment les alignements et la zone A686 ; modification éventuelle justifiée dans une zone de source ad hoc …

En termes d’usages, les catalogueurs Sudoc ont désormais à disposition des notices permettant une indexation plus fine des documents. Il est donc conseillé de les utiliser, y compris celles n’ayant pas encore de lien dans le Sudoc … dans ce cas, il conviendra simplement de créer une zone A810 ad hoc.

Isabelle Mauger Perez

Responsable du service Autorités & référentiels, Abes

et Sébastien Dalmon

Conservateur chargé de collection Antiquité au Département du Développement des Collections, Bibliothèque interuniversitaire de la Sorbonne

 

Voir l’article source depuis PUNKTOKOMO > ici

Voir la page-projet > ici

 

#FocusProjet

Notes

  1. OpenTheso est un logiciel libre et normé de gestion de thésaurus développé à l’origine pour la Maison de l’Orient et de la Méditerranée
  2. Depuis quelques années, la zone A686 du format UNIMARC Autorité (classification autre que la classification décimale Dewey) est utilisée pour repérer des notices appartenant à un corpus particulier. Dans l’interface professionnelle WinIBW, les sous-zones $a et $c, zones de la A686 alimentent l’index CLA (« classification » en dehors de Dewey)

Une actualité ou un événement à partager avec nous ?

Proposez vos actualités et événements afin qu'ils soient publiés sur le site du CollEx-Persée