Forum Open d'Etat #3 : article de restitution

Bonjour,

Comme pour le deuxième forum Open d’Etat et conformément au manifeste des forums, le compte-rendu de la rencontre passe par une période d’appel à commentaires avant sa publication.

Nous le publierons au cours de la semaine prochaine.

Merci de nous faire part à la suite de vos commentaires et suggestions sur ce compte-rendu.

Comment généraliser l’accès ouvert à la recherche ? Retour sur le forum Open d’Etat #3 à Toulouse pendant #ESOF2018

Le troisième forum Open d’Etat s’est tenu le 9 juillet 2018 à Toulouse, à l’Hôtel de Région Occitanie. Le forum était inscrit comme événement satellite de l’Eurocience Open Forum, la plus grande rencontre interdisciplinaire sur la science et l’innovation en Europe. Organisé avec le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation (MESRI), l’événement portait sur l’amélioration de l’accès ouvert aux publications scientifiques. Cette rencontre avait pour objectif de favoriser la participation de la société civile dans la mise en oeuvre collaborative de certaines actions de l’engagement 18 du deuxième plan d’action national de la France pour un gouvernement ouvert, portées par le MESRI.

Le forum portait sur deux actions en particulier :

  • mettre en place un dispositif de monitoring quantitatif de l’état d’avancement de la diffusion en accès ouvert de la littérature scientifique nationale,
  • "accélérer le développement de l’archive ouverte nationale HAL avec un investissement sur la simplicité d’usage et l’interopérabilité en renforçant ses moyens." Ces actions ont été précisées et renforcées par le plan d’action national pour la science ouverte publié cinq jours avant le forum.

En préparation de la rencontre, un kit d’appropriation a été transmis aux participants pour assurer une meilleure compréhension des enjeux et donner les éléments de contexte nécessaires. Le kit présente les grands principes du gouvernement ouvert, de la science ouverte et de l’accès ouvert et introduit les deux ateliers.

Consulter le kit d’appropriation

En ouverture, Bertrand Monthubert, conseiller régional délégué à l’enseignement supérieur et la recherche en Occitanie, a accueilli les participants à l’Hôtel de Région et a présenté sa vision du sujet de ce forum Open d’Etat. Il a insisté sur** l’importance d’aller au-delà de la seule ouverture de l’accès aux publications et d’également ouvrir les données de la recherche** sans lesquelles la science n’est pas reproductible. L’ouverture des données ne s’applique pas qu’à la science. Elle concerne aussi les collectivités locales comme le conseil régional qui ouvrira un portail open data en octobre avec une centaine de jeux de données en cours d’ouverture et met en place une politique d’accompagnement des collectivités occitanes.

Le Plan national pour la science ouverte : vers une diffusion sans entrave des publications et des données de la recherche

La première table ronde accueillait Marin Dacos, conseiller scientifique pour la science ouverte auprès du directeur général de la recherche et de l’innovation au MESRI et Yann Caradec, chef de projet dataESR au MESRI. Pour Marin Dacos, la loi pour une République Numérique permet aux auteurs de déposer leurs publications en accès ouvert, même après avoir accordé des droits exclusifs à un éditeur. Grâce à cette avancée, il est désormais possible de fixer des objectifs plus élevés de généralisation de l’accès ouvert. Actuellement, 25% des publications seraient disponibles en accès ouvert en France selon les données de l’Open Science Monitor de l’Union Européenne. Le plus gros obstacle à cette généralisation, selon lui, est un changement de culture qui est indispensable pour mettre en oeuvre la loi.

Le plan national pour la science ouverte comporte trois axes stratégiques : la généralisation de l’accès ouvert aux publications, la structuration et l’ouverture des données de recherche et l’inscription dans une dynamique durable, européenne et internationale. Par rapport au dernier axe, Marin Dacos a insisté sur l’importance de soutenir les couches techniques comme les identifiants uniques (DOI) de CrossRef ou Datacite ou Orcid pour identifier uniquement les auteurs des publications. Le plan d’action affirme la volonté de la France de participer dans les instances qui définissent les couches techniques de la science ouverte. Marin Dacos a aussi insisté sur deux acquis majeurs du plan d’action pour la science ouverte : l’obligation de diffusion en accès ouvert des publications financées sur appels à projets publics et une incitation forte pour les établissements à se doter d’une politique de science ouverte.

Yann Caradec a présenté quelques outils de valorisation des données du ministère: scanR, moteur de la recherche et de l’innovation qui devrait prochainement référencer aussi les chercheurs et les productions de la recherche pour encourager les décideurs publics à se saisir de la recherche dans leurs politiques publiques ou la Machine à données, outil d’alignement de données non normées avec des référentiels pour mettre en qualité les données mises à disposition en open data.

Face à cet objectif de généralisation de l’accès ouvert, ce forum Open d’Etat a permis de faire avancer deux des instruments essentiels de l’accès ouvert. Le baromètre abordé dans l’atelier 1 permettra de mesurer les progrès à partir de données fiables, ouvertes et maîtrisées (les données de Scopus qui alimentent l’Open Science Monitor européenne sont la propriété de l’éditeur Elsevier). **Le développement et l’amélioration de HAL **abordés dans l’atelier 2 permettront de renforcer l’autoarchivage, seul moyen pour conserver et partager le patrimoine scientifique sur le long terme.

Généraliser l’accès ouvert dans les laboratoires et rendre les frais d’édition transparents

Sandrine Malotaux était l’invitée de la seconde table ronde, elle intervenait à double titre en tant que directrice du service commun de documentation de l’Institut national polytechnique de Toulouse et en tant que responsable du département des Négociations Documentaires de Couperin (Consortium unifié des établissements universitaires et de recherche pour l’accès aux publications numériques). A Toulouse, l’Institut national polytechnique de Toulouse (Toulouse INP), l’École Nationale Vétérinaire de Toulouse (ENVT) et l’Institut Supérieur de l’Aéronautique et de l’Espace (ISAE-SUPAERO) ont créé ensemble OATOA, une archive commune institutionnelle. OATOA est la première archive universitaire créée en France en janvier 2008. Aujourd’hui, elle affiche un taux d’ouverture des publications en texte intégral de 76%, bien au-delà de l’estimation de 25% des publications ouvertes à l’échelle nationale.

Sandrine Malotaux explique le succès de l’archive ouverte OATOA par le fait qu’elle a été conçue à partir des besoins des chercheurs en demandant le dépôt du texte intégral uniquement pour les articles validés par les comités de lecture des revues. L’archive offre une visibilité des publications dans les moteurs de recherche (Google Scholar notamment) et une interopérabilité avec l’archive nationale HAL. Surtout, ce résultat s’explique par le travail de terrain effectué par les bibliothécaires dans les laboratoires. Ce sont eux qui effectuent le dépôt directement, assurent la qualité des métadonnées et sensibilisent directement les chercheurs à l’importance de l’accès ouvert.

Au sein de Couperin, Sandrine Malotaux travaille particulièrement sur la transparence des coûts d’accès et d’ouverture des publications. Cette transparence porte à la fois sur les coûts d’abonnement qui s’élèvent à 80 millions d’euros par an et les coûts de publication en open access, les Article Processing Charges qui peuvent être visualisés sur le site OpenAPC. Pour réaliser cette transparence, Couperin réalise des enquêtes auprès des établissements adhérant, ces chiffres sont indispensables au travail de plaidoyer et de négociation du consortium.

Atelier A : un baromètre de l’accès ouvert en France, comment et pourquoi ?

Après ces deux tables rondes, les participants se sont organisés en deux groupes pour les ateliers. Chaque groupe participait successivement au même atelier.

Le premier atelier reprenait la méthode reproductible « Theory of Change » développée par Nesta et s’appuyant sur un canvas qui permet de définir les objectifs, clarifier les priorités et définir la voie vers le changement. Cette méthode a demandé aux participants de se concerter d’abord sur le changement de long terme visé par le baromètre de l’accès ouvert.

Trois grands objectifs ont été distingués avec à chaque fois une clarification des postulats :

  • Obtenir que 100% des publications financées par le secteur public soient disponibles en accès ouvert (pour les données, cet objectif n’est pas souhaitable car il faut aussi protéger les différents secrets légaux, médicaux ou liés à la vie privée entre autre)
  • Avoir une vision d’ensemble de l’état de l’accès ouvert afin de le généraliser à tous les établissements et toutes les disciplines
  • Favoriser les bénéfices de la science ouverte : plus de pluridisciplinarité, reproductibilité de la recherche, éthique et confiance des citoyens dans la science, vulgarisation de la science, plus large diffusion des données et des résultats scientifiques…

Après avoir clarifié l’objectif de long terme du baromètre, les participants ont pu définir les problèmes immédiats et la marche à suivre pour les résoudre. Ce projet essaie de résoudre plusieurs problèmes de l’accès ouvert : les chercheurs et les responsables de laboratoires comme d’établissements ne perçoivent pas nécessairement l’intérêt de l’archivage et l’édition scientifique ouverte, il n’existe pas de source unique de données fiables et ouvertes pour faire l’état de l’accès ouvert, le dépôt sur HAL et les autres plateformes n’est pas systématique, les revues en open access ont parfois une faible notoriété… Un point de vigilance important a été exprimé à ce stade : beaucoup de chercheurs se méfient des dérivent de la bibliométrie sur la recherche ce à quoi essaient de répondre des projets comme Responsible Metrics. Le baromètre s’adresse prioritairement aux décideurs publics, aux responsables des établissements et des laboratoires, aux éditeurs, aux financeurs de la science et aux chercheurs eux-mêmes. Le développement de l’accès ouvert qui en découlera bénéficiera à un plus large public (citoyens, société civile, journalistes…)

Pour les participants, l’ergonomie et le design du baromètre sont essentiels pour attirer les visiteurs. Le baromètre devra aussi descendre dans la granularité des données pour afficher les résultats établissement par établissement et projet par projet. Explorer la granularité des données implique de contrôler la qualité des données et de permettre aux établissements de corriger les données de base du baromètre. Enfin, pour certains, un classement attirera assurément le public mais, pour un ministère, cela peut être très sensible, un ministère n’a pas vocation à classer ses opérateurs. L’ouverture des données du projet permettra à d’autres acteurs de proposer des classements alternatifs au baromètre officiel.

Une fois les objectifs, les cibles et les moyens de les atteindre définis, les participants ont défini quatre étapes pour faire aboutir le projet :

  • Choisir et collecter les données : un point épineux pour le baromètre, les participants ont estimé qu’on ne peut pas construire les politiques de science ouverte sur des données fermées et restrictives comme celles de Scopus ou du Web of Science. Une piste évoquée consiste à ne recenser que les articles qui ont un identifiant DOI comme le fait le projet Unpaywall.
  • Distinguer les chercheurs français : une question plus compliquée qu’elle n’y paraît, s’agit-il des chercheurs affilié à un établissement français ? de nationalité française ? que faire lorsque le chercheur est référencé comme co-auteur secondaire ?
  • Visualiser et explorer les données : on l’a vu précédemment, la possibilité d’explorer la granularité des données au niveau de l’établissement voire du laboratoire a été perçu comme une condition du changement de long terme visé. On pourra utiliser des treemaps interactifs comme dans OpenAPC ou OpenSpending. Si on descend au niveau des chercheurs, se pose la question de la conformité d’un tel dispositif par rapport au règlement européen de protection des données sur le consentement.
  • Permettre la correction des données : si on descend dans la granularité des établissements, il faut laisser la possibilité aux institutions de corriger leurs données dans le baromètre. Une option évoquée consistait à ne présenter au départ le niveau d’ouverture que dans les établissements volontaires afin de laisser le temps de fiabiliser les données.

Ce travail devrait permettre idéalement de doubler la part de l’accès ouvert, augmenter les moyens pour la science ouverte et développer les politiques d’accès ouvert dans les établissements. Le but étant d’atteindre pour un point de non-retour à partir duquel il deviendra indispensable d’ouvrir l’accès à ses publications pour qu’elles trouvent un lectorat.

Atelier 2 : quelles fonctionnalités améliorer dans l’archive nationale HAL ?

Ce deuxième atelier s’est attaché à comprendre comment la plateforme HAL répondait ou non aux usages et à l’emploi qu’en font ses utilisateurs et utilisatrices. Pour conduire cet atelier nous avons utilisé la méthode DAKI (Drop, Add, Keep, Improve), une méthode de rétrospective qui permet de catégoriser les éléments d’un produit : ce qui est à abandonner, à ajouter, à garder, ou à améliorer.

Le support de l’atelier était un poster divisé en quatre parties (nommées ci-dessus) permettant d’y inscrire les commentaires et retours des participants concernant HAL.

Hyper articles en ligne (ou HAL) est une plateforme en ligne développée en 2001 par le Centre pour la communication scientifique directe (CCSD) du CNRS, destinée au dépôt et à la diffusion d’articles de chercheurs publiés ou non, et de thèses, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. L’accès aux données est libre, mais pas nécessairement leur utilisation ou réutilisation.

HAL peut être utilisé à la fois comme portail de publication par les établissements (voir par exemple celui de l’ENAC, l’École Nationale d’Aviation Civile), mais aussi individuellement par les chercheur.se.s.

La fonctionnalité principalement utilisée par HAL est le dépôt, mais d’autres fonctionnalités moins directement visibles ont été discutées. Selon le CCSD, entre 15 et 20% des publications françaises sont disponible en texte intégral dans HAL, augmenter ce chiffre pour donner une dimension plus importante à la plateforme constitue un véritable enjeu.

1 / Ce qu’il faut garder

Parmi les fonctionnalités les plus appréciées par les personnes participant à l’atelier et qu’elles ont jugé bon de garder, on trouve :

  • La liste de publication individuelle de chaque chercheur ou chercheuse, et qui se met en page facilement et automatiquement une fois les références rentrées dans l’outil.

  • La possibilité de générer le CV de chaque chercheur ou chercheuse, proposant ainsi une page de profil remplie et actualisée : cela évite aux chercheurs de maintenir leur liste de publications à la main.

  • La stabilité de l’URL du profil créé ainsi que la liste de publication est perçue comme un avantage certain de pérennisation du profil.

  • L’excellent référencement sur les moteurs de recherche de cette URL permet une visibilité et une présence sur internet appréciée des chercheurs et chercheuses.

  • Afin d’autonomiser les chercheurs mais aussi les établissements dans la mise en ligne de leurs publications, des outils pédagogiques et plus techniques existent et ont été jugés utiles et de bonne qualité. Ces outils vont de la simple vidéo-tutoriel (CASUHAL propose un wiki qui explique comment déposer sur HAL) à tout un ensemble d’outils libres, comme par exemple l’outil d’extraction ExtrHAL, qui permet d’afficher et d’exporter dans les formats RTF, CSV et/ou Bibtex des listes de publications HAL d’une unité, d’une équipe de recherche ou d’un auteur, à partir d’un script PHP.

    En conclusion, certains participants ont fait remarquer que l’équipe d’administration de HAL était particulièrement attentive, impliquée et réactive, et que cela constituait aussi quelque chose d’important à souligner.

2 / Ce qu’il faut améliorer

Une gouvernance plus ouverte et transparente

Lors des discussions qui ont eu lieu pendant l’atelier, il est apparu assez clairement que la gestion technique de la plateforme en général est à améliorer, tant par l’automatisation de certains procédés, mais aussi dans la transparence du pilotage et de la gouvernance de la plateforme.

Par exemple le code source de HAL n’est pas ouvert et la feuille de route des nouvelles fonctionnalités est difficile à suivre par les utilisateurs. Soumettre des suggestions ou des propositions est possible mais leur prise en compte reste obscure, et cela crée une frustration et une méfiance sur les décisions du comité scientifique. Les utilisateurs sont présents dans le comité scientifique, mais pas dans le comité de pilotage. L’intégration du comité scientifique et technique a été obtenue de « haute lutte » et demandée depuis deux ans.

Des référentiels internationaux

Un autre point soulevé est l’amélioration des métadonnées, et notamment des mots-clés qui caractérise certains domaines précis de recherche. Le registre utilisé actuellement est loin d’être exhaustif et de faire l’unanimité. La liste des thématiques et des mots clés n’est pas ouverte, cela ne permet pas l’enrichissement par la communauté. Une des recommandations évoquée serait d’utiliser un référentiel existant et international. La question du référentiel s’applique également pour les établissements, mais aussi pour la description du document et l’application du Dublin Core par exemple.

_Un meilleur accompagnement _

Certes des outils et tutoriaux existent, mais la sensibilisation des directeurs et directrices d’établissement, mais aussi envers les jeunes chercheurs, est un point crucial pour encourager les dépôts sur la plateforme. Dans plusieurs domaines (le biomédical par ex.), elle est méconnue. Ce qui permet la bonne acception de HAL, c’est l’accompagnement et le portage de haut niveau. Cet accompagnement comporte à la fois la compréhension des enjeux mais aussi sur l’outillage et sur des actions de médiation concernant l’utilisation de la plateforme.

3 / Ce qu’il faut ajouter

Vers un moissonnage automatique

L’intégration et le dépôt des publications dans HAL se fait actuellement manuellement et de nombreuses personnes ont souligné l’importance de connecter HAL avec d’autres bases comme PubMed Central (PMC), une archive gratuite d’articles scientifiques publiés dans des revues biomédicales et des sciences de la vie ou PLOS ( Public Library of Science), un éditeur d’articles de médecine et de technologie en accès ouvert, à but non-lucratif, comprenant une bibliothèque de revues en accès libre et d’autres documents scientifiques produits sous une licence ouverte.

La publication d’articles co-écrits

Dans la mesure n°3 du plan pour la science ouverte, une clause de HAL proposera aux chercheurs qui sont titulaires de leur droit (sauf s’ils les ont cédés à titre exclusif) de demande à tous les auteurs leur autorisation de publier. L’auteur a le droit d’autoriser HAL à récupérer ses papiers. Mais HAL ne peut pas le faire massivement. Il faut que les chercheurs les autorisent un par un.

La suite

Pour conclure, Marin Dacos a synthétisé quelques grands enseignements des ateliers. Concernant HAL, des améliorations rapides peuvent être faites. Une idée nouvelle qui peut être mise en place rapidement consiste à compenser l’invisibilité du travail fait de traitement des dépôts par un système de suivi transparent inspiré du projet Open 311 pour le suivi des demandes dans les villes : une transparence sur l’état d’avancement du dépôt pour rendre visible et comprendre le travail de validation.Des améliorations pourront être faites sur la transparence et la gouvernance de la feuille de route de HAL et l’ouverture de son code source.

Concernant le baromètre, le souhait des établissements à calculer leur propre taux d’accès ouvert est une idée nouvelle pour le projet. Elle soulève des défis considérables qui ne seront pas nécessairement résolus : comment s’accorder sur la méthodologie pour que les chiffres soient comparables et acceptables ? Il ressort aussi de ce forum que la couche technique reste le point faible du projet de baromètre, les sources de données devant être d’autant plus fiable qu’on descend dans la granularité. Pour approfondir ces questions, un barcamp devrait être organisé par le MESRI à l’automne.

Nous remercions chaleureusement la région Occitanie pour son accueil et les participants pour leurs contributions. Le prochain forum Open d’Etat se tiendra à Nantes lors de Numérique en Commun le jeudi 13 septembre.