Avis sur les logiciels d'anonymisation

Alexis · Mars 4, 2016, 5:53pm

L’anonymisation est un sujet compliqué. Il existe des logiciels qui aide à rendre impossible la ré-identification est-ce que quelqu’un les a testés ?

J’ai listé mu-argus, tau-argus, arx et le package R qui peut avoir une interface sdcMicroGUI.

elecharny · Mars 7, 2016, 7:40pm

C’est très complexe. Quand on développe un logiciel d’anonymisation, il faut tenir compte de plusieurs problèmes

anonymisation non réversible : il doit être impossible de retrouver la valeur initiale à partir de la valeur anonyme (cela signifie qu’un chiffrement n’est pas souhaitable)
qui dit anonymisation non réversible dit collision (le célèbre problème des dates anniversaires…). Résoudre ce problème n’est pas trivial
on est aussi confronté au problème du respect syntaxique du résultat anonymisé : le résultat doit être accepté par l’otuil de stockage
un autre problème est l’alimentation en continue de la base anonymisée : une même donnée doit pouvoir être anonymisé de la même façon, indépendement de la date d’injection dans la base anonymisée (une solution type one-time pad est envisageable)
Le problème des cross-références doit aussi être pris en compte : une donnée référencée doit être anonymisée de la même façon par son référent
la recherche par sous-chaîne est impossible : une fois anonymisée, une base n’est plus cherchable de la même façon, se qui pose le problème de savoir ce qui doit être anonymisé par rapport à l’usage des données.

Une alternative est d’anonymiser ‹ à la volée › ce qui est retourné à l’utilisateur, mais cela demande un gros travail de conception…

Tolie · Mars 8, 2016, 5:20pm

Bonjour,
La difficulté concerne aussi l’environnement d’anonymisation que vous souhaité traiter. Même si vous anonymisez une base et que vous en mettez à disposition une autre également anonymisée, il faut traiter l’anonymisation des deux, dans le cas de données publiques.
Tau Argus est simple et agréable pour des petits traitements.

Lancelot · Mars 8, 2016, 5:57pm

« Difficile » plutôt qu’« impossible »: la réidentification est toujours un risque
Ex: http://bits.blogs.nytimes.com/2015/01/29/with-a-few-bits-of-data-researchers-identify-anonymous-people/?_r=0

Alexis · Mars 9, 2016, 9:50am

Bien sûr que c’est toujours un risque !

Je retiens ce passage de l’article cité par Lancelot :
“The message is that we ought to rethink and reformulate the way we think about data protection,” said Yves-Alexandre de Montjoye, a graduate student in computational privacy at the M.I.T. Media

Parce que dans les exemples cités, la prise en compte du risque de ré-identification avait été tout de même assez naïve.

Sur la question du multi-source je suis preneur tout élément. Pour l’instant j’en ai trouvé très peu.

Lancelot · Mars 9, 2016, 10:22am

cf. Differential Privacy https://en.wikipedia.org/wiki/Differential_privacy