TRIBUNE : Laissez une trace de votre hackathon !

TRIBUNE : Laissez une trace de votre hackathon !

Dans les semaines qui viennent, de nombreux hackathons vont se dérouler, sur la consommation énergétique, sur les données de la cour de comptes ou encore sur les fréquences, et je ne pourrai pas participer à tous ce événements. Mais j’espère pouvoir profiter du travail qui sera accompli pour réutiliser plus tard les données peut-être pour d’autres usages… Car c’est bien à ça que sert un hackathon open data ?

On sait déjà qu’une partie du travail consistera à nettoyer de la donnée. Les jeux mis à disposition par les administrations sont la plupart du temps dans des formats… Disons exotiques ! Par exemple pour les accidents de la circulation, l’identifiant de la commune est séparé en deux champs, et le code département est « complété » par un zéro à droite (oui, vous avez bien compris, le code département de Paris est, comme chacun sait, 750 !). Par conséquent une partie du hackathon s’est attelée à redresser le fichier pour produire un nouveau [jeu de données] (https://www.data.gouv.fr/fr/datasets/base-de-donnees-des-accidents-corporels-de-la-circulation/) pour les années 2006 à 2011.

Cela peut apparaître comme une perte de temps, pourtant c’est une énorme avancée dans l’open data. En effet les administrations sont enfin rentrées dans une démarche de partage de leurs données. Mais si elles ont bien changé depuis l’époque où elles gardaient jalousement leur trésor numérique, elles ne vont pour l’instant pas beaucoup plus loin qu’un export brut de leur format interne. Et c’est à nous, citoyens, de transformer cette matière dans un format adapté à nos réutilisations.

Le jeu de données corrigées cité plus haut a été réutilisé pour de nombreuses cartes, cependant on ne peut malheureusement pas en profiter de cette avancée sur la durée car la méthode de nettoyage utilisée reste inconnue. Tout le travail est à refaire si quelqu’un veut étudier ou cartographier les années suivantes, à partir des nouvelles données mises à disposition par le ministère de l’intérieur.

Pour que le travail réalisé pendant un hackathon soit pérenne, il faut au minimum le documenter, à l’image de ce que fait Idées Libres, ou encore mieux de publier le code informatique et les requêtes utilisées sur une plateforme reconnue. La valeur ajoutée pendant le hackathon sera ainsi disponible pour tous et quasi indéfiniment, alors qu’une partie des réutilisations ou expérimentations
ne seront plus en ligne au bout de quelques mois.

Au même titre qu’un logiciel gratuit n’offre pas la même liberté qu’un logiciel open source, une donnée n’est réellement ouverte qui si on expose comment elle a été obtenue.

Alors mercredi, lorsque vous cogiterez pour exploiter l’essence des données nouvellement ouvertes, créez un dépôt sur github pour laisser une trace réutilisable de votre travail !

Alexandre Bonnasseau

Retrouver l’original de cette tribune sur le forum de l’Open Knowledge Foundation