Travail préparatoire au datacamp

L’objectif principal de ce datacamp est de mettre au point les méthodes et process pour obtenir des données géographiques correspondant au découpage du territoire d’une commune par bureau de vote.

Les éléments de départ disponibles sont de deux natures:

  • les arrêtés définissant les bureaux de vote
  • les listes électorales

Les fichiers sont sur https://github.com/cadastre-electoral/datacamp-2016-11-05

Le challenge principal consiste à ne travailler qu’à partir des arrêtés afin de voir quelles évolutions seraient utiles pour faciliter la généralisation de leur traitement.

Pour les arrêtés, il s’agit de versions scannées disponibles en format PDF.

Il s’avère qu’ils sont très peu homogènes dans leur présentation. Parfois il s’agit de tableaux relativement structurés, parfois de textes. Les limites sur les numéros sont elles aussi relativement hétérogènes.

OCR des arrêtés

Une première étape a consisté à transformer ces documents PDF pour les passer en OCR.
J’ai utilisé ImageMagick pour les convertir en tiff, puis tesseract pour en extraire le texte.
Les deux scripts sont sur https://github.com/cadastre-electoral/datacamp-2016-11-05/tree/master/cquest/arretes
Les fichiers texte extraits sur https://github.com/cadastre-electoral/datacamp-2016-11-05/tree/master/cquest/arretes/1b-txt

CSV intermédiaires

Un objectif est d’arriver à produire à partir de ces textes des CSV de structure homogène tels que ceux ressaisit à la main et disponibles sur https://github.com/cadastre-electoral/datacamp-2016-11-05/tree/master/cquest/arretes/csv-intermédiaires

Des données externes peuvent être utiles pour faire le rapprochement du texte avec les noms de voies de chaque commune. On a par exemple le fichier FANTOIR de la DGFiP ou les noms de voie présents dans la Base Adresse Nationale (BAN).

A partir de ces CSV on peut ensuite s’attaquer à la seconde partie du problème: regénérer les limites géographiques.

Données géographiques

Là aussi des données externes sont indispensables. L’APUR diffuse en opendata (licence ODbL) plusieurs jeux de données de référence qui peuvent être très utile:

  • filaire de voirie
  • tronçons de voirie
  • ilôts habités

Sous la même licence (ODbL), nous avons aussi les données OpenStreetMap.

Un exemple de découpage de bureaux de vote est d’ailleurs disponible sur OpenStreetMap pour la commune de Saint-Maur-des-Fossés: http://overpass-turbo.eu/s/jNL