Masse VS Unitaire

sangoval · Avril 18, 2018, 3:59pm

Bonjour,

Je mets en place de la géolocalisation de masse via des fichiers CSV depuis Talend. Tout marche correctement, cependant au niveau des résultats je suis un peu surpris.
- Les scores ne dépassent pas 0.58, alors qu’en testant les mêmes adresses sur l’API unitaire j’obtiens des scores allant au-delà de 0.9 .
- De plus, parfois le Result Type est « Street » alors qu’en appel unitaire le meilleur résultat est en type « Housenumber », du coup il m’arrive de perdre des infos et d’avoir un résultat moins qualifié qu’à la base (parfois c’est justifié ^^)
- Et pour finir le champ result_street du csv de retour est toujours à null.

Donc j’aurais voulu savoir si les algos entre Masse et Unitaire étaient différents, ou si c’est au niveau de mon appel de masse qu’il faut que je modifie/rajoute/retire certaines choses.

Cordialement,

cquest · Avril 18, 2018, 4:17pm

Quelques exemples d’adresses pour vérifier avec les requêtes associées ?

Les requêtes sont forcément différentes, sinon l’API retournerait les mêmes scores.

Le traitement en masse ou unitaire un légèrement différent mais en principe ça n’a pas ce genre d’impact ou alors on est sur un cas particulier.

sangoval · Avril 19, 2018, 7:30am

Bonjour, Voici quelques exemples :

https://api-adresse.data.gouv.fr/search/?q=33%20LA%20BRIQUETERIE%2008400%20FALAISE
Unitaire --> Score : 0.90, type: Housenumber
Masse --> result Score 0.36, Type : Street

https://api-adresse.data.gouv.fr/search/?q=64%20%20RTE%20DE%20QUINCY%20%2074330%20NONGLARD
Unitaire --> Score 0.71, type : Housenumber
Masse --> 0.33, type Street

https://api-adresse.data.gouv.fr/search/?q=12%20BIS%20BOULEVARD%20DE%20BELLECHASSE%20%2094100%20SAINT%20MAUR%20DES%20FOSSES
Unitaire --> score 0.933, type housenumber
Masse --> score 0.58 , type Housenumber

Cordialement,

sangoval · Avril 19, 2018, 8:11am

En fait mon fichier comporte des colonnes de clé primaire qui me permettent d’insérer le fichier CSV de retour directement en base. Je viens de faire un test en retirant les clés primaires du fichier et les mêmes adresse obtiennent des scores plus forts qu’avant.

Je pense que le problème vient de mes clés primaires pourtant je n’ai pas l’impression qu’elle soit interprétées au niveau du web service…
Voici le schéma de mon fichier in:

SYSTEME_SOURCE;TABLE_SRC;TYPE_SRC;K01;K02;K03;ADRESSE

J’ai testé le même fichier avec ça :

Les resultats sont plus forts. Donc c’est au niveau de mon appel à l’API en java, il faut que je lui dise de prendre que le champ ADRESSE pour effectuer le traitement.

Merci pour votre retour (PS si quelqu’un sait comme le spécifié en JAVA je suis preneur)

sangoval · Avril 19, 2018, 1:56pm

Après moult tests, le problème est résolu. Je n’explique par pourquoi cette solution fonctionne, mais ça marche.

Pour info, lors de mon appel Java, je suis obligé de mettre un multipart.addFormField(« columns »,"");
en premier, un peu comme si ce premier formfield était ignoré.
Ensuite je mets les autres
multipart.addFormField(« columns »,« ADRESSE »);
multipart.addFormField(« postcode »,« CP »);
multipart.addFormField(« columns »,« VILLE »);

Pour les intéressés par une intégration de la géoloc en masse (csv) via Talend, vous pouvez me contacter et je vous aiderais avec plaisir.

Cordialement