Hackathon BnF (19 et 20 novembre 2016) : les données disponibles

Bibliothèque numérique :

  • Gallica http://gallica.bnf.fr
    Bibliothèque numérique de la BnF, Gallica héberge près de 3 millions de documents de toutes natures (livres, presse, manuscrits, estampes, objets, partitions…). Tous sont accessibles en mode image et certains le sont également en mode texte, avec une qualité d’OCR variable. La grande majorité des ouvrages sont libres de droit mais certains sont encore sous droits (bien vérifier ce qui est mentionné dans les métadonnées). Pour les documents libres de droits, la récupération des images se fait de manière libre et gratuite pour un usage non commercial (pour les usages commerciaux une licence s’applique). Divers modes de récupération des images sont accessibles (téléchargement de toute ou partie des ouvrages) et un ensemble d’API exploitant le protocole IIIF (documentation sur http://iiif.io/) permet de récupérer les images en haut définition avec un certain nombre de paramètres.
    Les métadonnées descriptives de l’ensemble de ces documents sont également disponibles au format Dublin Core via les protocoles OAI-PMH et SRU.

Plate-forme de données ouvertes

  • Data BnF [http://data.bnf.fr] (http://data.bnf.fr)
    Plate-forme rassemblant l’ensemble des données issues de différentes bases et catalogues de la BnF pour y donner un accès fédéré par auteur et par oeuvre. Un module de recherche permet de faire des requêtes manuelles et un SPARQL Endpoint permet de construire des requêtes complexes. L’ensemble des données est récupérables au format RDF (XML, NT, N3) et JSON ou JSON-LD. Un DUMP complet des données est récupérables par FTP ou HTTP et un certain nombre d’autres protocoles peuvent être utilisés. Voir [http://data.bnf.fr/semanticweb] (http://data.bnf.fr/semanticweb)

Catalogues

  • Catalogue général http://catalogue.bnf.fr
    Plus important catalogue de la BnF, cet ensemble regroupe 14 millions de notices bibliographiques (livres et périodiques imprimés, images fixes et animées, collections sonores, cartes et plans, manuscrits musicaux et près de 5 millions de notices d’auteurs (noms de personnes, collectivités), de titres d’oeuvres, de sujets, de lieux géographiques, au format MARC.
    Les notices sont récupérables selon divers formats et protocoles :

  • en Dublin Core via un entrepôt OAI (notices descriptives seulement, à l’exclusion des notices d’entités).

  • au format MARC (ISO 2709) via un serveur FTP (sur authentification, un identifiant sera fourni aux participants sur simple demande).

  • au format MARC via un serveur Z 39.50.

  • Catalogue BnF Archives et manuscrits [http://archivesetmanuscrits.bnf.fr/] (http://archivesetmanuscrits.bnf.fr/)
    Utilisant le format XML EAD, ce catalogue rassemble la description des collections de manuscrits et de fonds d’archives conservés dans différents départements de la BnF. On y trouve des manuscrits littéraires ou historiques de l’antiquité à l’époque contemporaine, des fonds d’archives administratives, privées ou de spectacles. Les notices peuvent être téléchargées au format PDF ou récupérées en XML via un module d’export (sur authentification pour des raisons techniques pour l’instant, un identifiant sera fourni aux participants sur simple demande).

  • Médailles et Antiques [http://medaillesetantiques.bnf.fr] (http://medaillesetantiques.bnf.fr)
    Catalogue répertoriant les médailles et antiques conservés à la BnF ainsi que leurs images.

Bases spécialisées :

  • Reliures [http://reliures.bnf.fr] (http://reliures.bnf.fr)
    Accès à la base des reliures numérisées de la BnF, qui propose une sélection de reliures à décor conservées à la Réserve des livres rares. Descriptions au format XML TEI. Données téléchargeables en PDF et en RDF.

  • Mandragore [http://mandragore.bnf.fr] (http://mandragore.bnf.fr)
    Base iconographique en ligne du département des Manuscrits. Indexation des images et accès aux images.

  • BP 16 [http://bp16.bnf.fr] (http://bp16.bnf.fr)
    Base qui contient les notices de la Bibliographie des éditions parisiennes du 16e siècle, rédigée d’après les manuscrits de Philippe Renouard (la version actuelle de BP16 couvre les années 1501-1540). Données téléchargeables en PDF et en RDF.

  • Presse locale ancienne [http://presselocaleancienne.bnf.fr] (http://presselocaleancienne.bnf.fr)
    Recherche et localisation des journaux d’intérêt local parus en France, des origines jusqu’en 1944 ; accès à leur version numérisée dans Gallica et d’autres bibliothèques numériques.

Conditions d’utilisations.
Les images de Gallica sont utilisables pour un usage non commercial. Les conditions complètes d’utilisation sont décrites sur [http://gallica.bnf.fr/html/und/conditions-dutilisation-des-contenus-de-gallica] (http://gallica.bnf.fr/html/und/conditions-dutilisation-des-contenus-de-gallica)
Sauf mention particulières, les métadonnées des bases et catalogues sont sous Licence Ouverte [https://www.etalab.gouv.fr/licence-ouverte-open-licence] (https://www.etalab.gouv.fr/licence-ouverte-open-licence)

5 Likes

Bonjour,
je m’intéresse et m’initie au Web sémantique et les données RDF de la BNF sont pour moi un excellent champ d’investigation.
Pouvez-vous m’indiquer quel est et où utiliser le module de recherche que vous citez :
Data BnF http://data.bnf.fr14
Plate-forme
rassemblant l’ensemble des données issues de différentes bases et
catalogues de la BnF pour y donner un accès fédéré par auteur et par
oeuvre. Un module de recherche permet de faire des requêtes manuelles et
un SPARQL Endpoint permet de construire des requêtes complexes.

Merci bien
Robert