Bonjour,
J’ai dans une base de données beaucoup de données texte qui se ressemblent, dans le style suivant:
2 Etablissement public pour l'aménagement de la région de La Défense
3 Etablissement public pour l'aménagement de la région dite “de la Défense”
29 Etablissement public pour l'aménagement de la région dite « de la Défense »
1 Etablissement public pour l'aménagement de la région dite “de La Défense”
2 groupement de coopération sanitaire « Centre régional de compétence en surdité infantile »
1 groupement de coopération sanitaire « Centre régional de compétence en surdité infantile » (CRCSI)
Je souhaite résoudre ces conflits en normalisant ces entrées dans ma base. Tout ne peut malheureusement pas s’automatiser, et je suis à la recherche d’une interface qui me permette de trouver facilement des chaines proches entre elles, et surtout de décider que ces chaines décrivent effectivement bien la même chose (et stocker cette information quelque part).
Auquel cas, il faudrait également choisir l’écriture à privilégier parmi celles qui sont proposées
Je suis donc principalement à la recherche d’une interface faite pour ce travail fastidieux, si ca existe. Et si ca n’existe pas il faut d’urgence combler le vide.
Avez-vous par hasard déjà rencontré ca ?
En vous remerciant pour vos lumières,
Nathann Cohen
P.S.: Pour ceux que ca intéresse, ca fait partie de ma tentative d’offrir une version ‹ propre › des nominations publiées au Journal Officiel: http://jorfsearch.steinertriples.fr