Hackathon BnF. Défi n° 3 : Améliorer l'expérience de recherche

Enjeux

Comment proposer aux utilisateurs une expérience de recherche à la hauteur de la richesse des ressources de la BnF ? Voilà une mission de bibliothécaire ô combien traditionnelle !
Malgré le volume des données diffusées par la BnF, certains besoins de recherche restent en effet insatisfaits. Il s’agit de répondre à ces besoins, en exploitant notamment la fouille de données ou la production de données complémentaires.

Pistes et idées

  • Les collections imprimées de Gallica sont riches d’une iconographie variée et abondante, qu’il s’agisse d’illustrations de presse ou de monographies.Cette iconographie couvre des thématiques absentes des collections d’images de Gallica, peu présentes (par exemple sciences et techniques) ou complémentaires (portraits de personnages publics dans la presse, cartes). En l’état, Gallica reste donc souvent silencieux ou peu disert lorsque interrogé par des utilisateurs en recherche d’images alors même qu’il pourrait les satisfaire. L’objectif serait de créer un démonstrateur sous la forme d’une application web de recherche d’images par mot-clé qui interrogerait la totalité de la collection numérique, en utilisant toutes les données et métadonnées disponibles (notice bibliographique, légendes des illustrations, OCR) et en proposant des heuristiques et une interface adaptée à la recherche d’images. Une démarche opérationnelle pourra consister à fouiller l’ensemble des données et métadonnées à disposition pour en extraire la localisation des images ainsi que les sélecteurs permettant de les retrouver.

  • Il est difficile d’accéder aux documents iconographiques s’ils ne disposent pas d’un minimum de données descriptives. L’indexation des images proposées dans les applications de la BnF serait une amélioration considérable de l’expérience de recherche des utilisateurs. Il s’agirait de prendre en compte les usages dans ce domaine. On peut imaginer par exemple que le moteur de recherche pour les images permette de distinguer la couleur du noir et blanc ou de classer les images selon la couleur dominante, pour faciliter les éventuelles réutilisations des images issues de Gallica.

  • Le crowdsourcing peut permettre d’enrichir la descriptions des ressources en termes de volume et de nature des données produites. Les données produites par les internautes répondent en effet à des besoins différents et permettent d’offrir aux usagers des services complémentaires à ceux ouverts par les données produites par les catalogueurs professionnels. La gamification serait un bon levier pour atteindre la masse critique nécessaire de participants pour un résultat satisfaisant. Il existe une plate-forme open source de jeux pour le crowdsourcing, http://www.metadatagames.org/ , où la British Library a proposé d’indexer certains de ses documents iconographiques. Pour créer une communauté autour des jeux, qu’ils soient en solo ou en multi, on peut penser à ajouter des fonctions sociales (forum, messagerie, chat, classement, récompenses, etc).

  • Aujourd’hui, il est possible, grâce à la reconnaissance optique de caractères, d’interroger en mode
    texte des pages imprimées numérisées dans Gallica ; cela n’est pas encore possible avec des textes manuscrits. L’objectif du projet serait de lier en « back office » (sans toucher à la notice proprement dite) une image de Gallica et un texte brut fourni qui suit la mise en page du manuscrit de départ, cela afin de permettre l’interrogation par texte de documents manuscrits numérisés dans Gallica. Ainsi, par exemple, l’objectif est qu’il soit possible à un utilisateur de lancer une recherche « saint-simon » dans Gallica et de se voir proposer en résultat toutes les pages où le mot « saint-simon » a été soit reconnu par OCR (textes imprimés), soit trouvé dans les versions textes fournies avec les numérisations.
    La lettre de Gustave d’Eichthal à son père et sa transcription seront fournies comme échantillon de travail http://gallica.bnf.fr/ark:/12148/btv1b525071864

  • Le fonds de partitions de Gallica propose des documents traversant près de 5 siècles d’histoire de la musique écrite, éditée ou manuscrite. Ces partitions de tous genres musicaux et libres de droits d’auteurs peuvent être jouées en concert à partir d’une impression de Gallica, et constituent une source originale pour la recherche de répertoire. Néanmoins, la plupart de ces œuvres n’ont pas été rééditées depuis leur première publication ou diffusion, et la partition telle qu’imprimée de Gallica peut être difficile à lire (musique manuscrite, musique ancienne gravée, mise au format A4 d’un format in-fol…). L’objectif est d’ajouter à Gallica les outils d’OMR (Optical Music Recognition) pour produire à partir des images numérisées des fichiers MusicXML (permettant une réédition moderne de la musique) et MIDI (permettant d’écouter la partition sans passer par un enregistrement sonore).

1 J'aime

Et on peut aussi développer une fonctionnalité du type « si vous cherchez ça, vous aimerez/aurez besoin peut-être de ça », un mix de l’option Amazon et du principe de sérendipité du chercheur qui regarde sur les étagères le document qu’il veut mais aussi tous ses voisins.

On peut aussi imaginer une application de fouille et de reconnaissance d’images pour identifier les photographies d’agences de presse (agence Mondial, Agence Rol, Agence Meurisse, etc.), numérisées et consultables dans Gallica, qui ont été réellement utilisées pour illustrer des articles de presse.

1 J'aime

#Idée Projet : Rendre les fonds iconographiques plus accessibles

Si les contenus texte sont relativement accessibles aux logiciels d’audio description utilisés par les personnes mal ou non voyantes, les images sont généralement le parent pauvre en matière d’accessibilité, faute de description même sommaire et de texte alternatif. L’idée serait de proposer un outil de description collaborative pour les documents iconographiques (par exemple photos).

L’enrichissement ainsi produit permettrait :

  • de rendre ces documents plus accessibles pour les outils d’audio description ;
  • de créer plus de contenu interrogeable en plein texte par le moteur de recherche de Gallica et favoriser ainsi la recherche de documents iconographiques ;
  • de réutiliser le contenu créé (ou partie) comme texte alternatif, améliorant ainsi l’accessibilité des données et référencement.

Dans le cadre du hackathon, on pourrait se concentrer sur un ou plusieurs corpus restreints (photos du fonds Atget, Armorial d’Hozier, etc).

L’application pourrait prendre la forme d’un système de gamification (avec statistiques d’indexation, palliers à atteindre, labellisation, etc ; cf https://tools.wmflabs.org/wikidata-game/) et pourrait être utilisée par des enfants.

1 J'aime