Avis sur les logiciels d'anonymisation

L’anonymisation est un sujet compliqué. Il existe des logiciels qui aide à rendre impossible la ré-identification est-ce que quelqu’un les a testés ?

J’ai listé mu-argus, tau-argus, arx et le package R qui peut avoir une interface sdcMicroGUI.

4 J'aime

C’est très complexe. Quand on développe un logiciel d’anonymisation, il faut tenir compte de plusieurs problèmes

  • anonymisation non réversible : il doit être impossible de retrouver la valeur initiale à partir de la valeur anonyme (cela signifie qu’un chiffrement n’est pas souhaitable)
  • qui dit anonymisation non réversible dit collision (le célèbre problème des dates anniversaires…). Résoudre ce problème n’est pas trivial
  • on est aussi confronté au problème du respect syntaxique du résultat anonymisé : le résultat doit être accepté par l’otuil de stockage
  • un autre problème est l’alimentation en continue de la base anonymisée : une même donnée doit pouvoir être anonymisé de la même façon, indépendement de la date d’injection dans la base anonymisée (une solution type one-time pad est envisageable)
  • Le problème des cross-références doit aussi être pris en compte : une donnée référencée doit être anonymisée de la même façon par son référent
  • la recherche par sous-chaîne est impossible : une fois anonymisée, une base n’est plus cherchable de la même façon, se qui pose le problème de savoir ce qui doit être anonymisé par rapport à l’usage des données.

Une alternative est d’anonymiser ‹ à la volée › ce qui est retourné à l’utilisateur, mais cela demande un gros travail de conception…

1 J'aime

Bonjour,
La difficulté concerne aussi l’environnement d’anonymisation que vous souhaité traiter. Même si vous anonymisez une base et que vous en mettez à disposition une autre également anonymisée, il faut traiter l’anonymisation des deux, dans le cas de données publiques.
Tau Argus est simple et agréable pour des petits traitements.

« Difficile » plutôt qu’« impossible »: la réidentification est toujours un risque
Ex: http://bits.blogs.nytimes.com/2015/01/29/with-a-few-bits-of-data-researchers-identify-anonymous-people/?_r=0

Bien sûr que c’est toujours un risque !

Je retiens ce passage de l’article cité par Lancelot :
“The message is that we ought to rethink and reformulate the way we think about data protection,” said Yves-Alexandre de Montjoye, a graduate student in computational privacy at the M.I.T. Media

Parce que dans les exemples cités, la prise en compte du risque de ré-identification avait été tout de même assez naïve.

Sur la question du multi-source je suis preneur tout élément. Pour l’instant j’en ai trouvé très peu.

cf. Differential Privacy https://en.wikipedia.org/wiki/Differential_privacy