Géocodage en masse - erreur 502 Bad Gateway

Bonjour,

Pour le compte du Ministère du Travail, nous réalisons un référentiel d’entreprise et établissement. Nous utilisons adresse.gouv.fr pour récupérer les coordonnées à partir des adresses. Pour cela, nous envoyons une série de fichiers csv de 15 000 lignes maximum, un seul à la fois. Certains fichiers passent, en environ 1min30, mais d’autres renvoient 502 Bad gateway, qui à ma compréhension est du à un timeout coté BAN au bout de 2 minutes.

Pouvez-vous confirmer mon analyse ainsi que la valeur du timeout pour le géocodage en masse svp ?

Cordialement,
Etienne Lambert

Je réponds à côté, mais ceci vous aidera sûrement…

Savez-vous qu’une version géocodée de la base SIRENE est disponible sur http://data.cquest.org/geo_sirene/v2019/ ?

Le stock mensuel des établissements est géocodé en s’appuyant entre autre sur la BAN, complétée par BANO (plus complète sur les lieux-dits sans adresse numérotées) et les points d’intérêts OpenStreetMap (pour les adresses de type « galerie marchande auchan »).

Je vous invite à regarder ces fichiers déjà géocodés (et mieux qu’avec la seule BAN).
Il sont en général disponibles le 2 ou 3 du mois.

Les mises à jour quotidiennes sont aussi géocodées et disponibles sur http://data.cquest.org/geo_sirene/v2019/quotidien/

Bonjour Christian,

Merci pour cette réponse.

Cette option a en effet été étudiée en début d’année, mais il a été jugé que cette solution n’offrait pas suffisamment de garanties de pérennité pour être utilisée dans ce cadre (je pense que le domaine cquest.org a donné l’impression d’un projet « perso »). Nous avons aussi étudié la possibilité de faire tourner le même code sur une machine intégrée à notre projet, toutefois les spécifications CPU/RAM requises ont éliminé cette option pour le moment. Il n’est pas exclu que cela fasse l’objet d’une évolution future cependant, si la qualité du géocodage par la BAN seule ne suffisait pas.

Cordialement,
Etienne Lambert.

C’est effectivement à titre perso que je géocode SIRENE.

Pour un déploiement autonome, on peut réduire la config nécessaire.
La mienne occupe pas mal de RAM, car les 3 instances du moteur de géocodage servent aussi d’autres choses (j’en ai même une 4ème).

Côté RAM… on peut minimiser la config nécessaire:

  • en pré traitant BAN et BANO pour les fusionner avant indexation par le géocodeur
  • en pré traitant la partie POI OSM pour ne garder que ceux utiles à ce géocodage

Pour le CPU, ça ne fait varier que le temps total nécessaire (quasi linéaire), et c’est encore optimisable.

Sinon, n’hésitez pas à me contacter en MP si vous voulez un accompagnement pour une solution pérenne. Il est tout à fait possible de contractualiser :wink:

Merci Christian,

Je relance le sujet avec mon interlocuteur coté Ministère.