Bannir les traceurs tiers des sites web de l'État et des organismes publics

cpm · Février 29, 2016, 11:07am

Contexte
Une mode en cours sur le web consiste à intégrer dans les pages web des ressources externes tierces (Google Analytics, Google Fonts, Facebook, Twitter…). Malheureusement, ces inclusions sont autant de traceurs qui collectent des données personnelles sur les webonautes. Le pire, c’est que ces acteurs tiers :

n’offrent aucune information sur ce qu’ils font des données collectées ;
ne garantissent en rien que les données collectées seront protégées efficacement ;
sont soumis à des lois pouvant porter atteinte aux citoyens européens (Patriot Act…).

Une méthode pour constater ces traceurs indélicat : dans Firefox, installer le plugin ResquestPolicy (logiciel libre).

Le problème
Certains sites étatiques sont orientés « politique », « emploi » ou « santé ». Voir ces sites se rendre complices du traçage des citoyens et ne pas garantir ce qui est fait avec leur données personnelles, cela est très inquiétant.

Quelques exemples :

le site web de Pôle emploi (http://www.pole-emploi.fr/) : XITI ;
le site web du gouvernement (http://www.gouvernement.fr/) : Google Fonts, XITI, Twitter ;
le site de l’Assemblée nationale : Google Analytics, Facebook ;
le site de l’Assurance maladie (http://www.ameli.fr/) : DoubleClick, XITI ;
le blog d’Etalab (http://www.etalab.gouv.fr/) : Google API, WP, Flickr ;
etc.

Solution
Puisqu’il est impossible de garantir ce que font les fournisseurs tiers de services, il convient de ne pas les utiliser. Les sites de l’État et des organismes publics doivent bannir de leurs pages ces traceurs.

Pour la collecte de statistiques d’utilisation du site web, des solutions hébergées en interne sont disponibles (http://fr.piwik.org/).

Un contre-exemple exemplaire est le forum d’Etalab qui ne contient aucun traceur externe mais un traceur interne dont les données sont correctement gérées sur un serveur d’Etalab.

Proposition
Pour régler ce crucial problème de sécurité des données personnelles et d’intimité numérique, il est souhaitable que une directive venant du plus haut niveau impose le bannissement de toute solution de traçage externe dans les sites web étatiques et des organismes publics.

cquest · Février 29, 2016, 1:10pm

J’ai fait un bilan de ces usages externes sur les sites des services publics, que ce soit des outils d’analyse du traffic, mais aussi les API, les divers javascripts et fichiers comme des polices de caractère utilisés depuis des CDN ce qui est une autre forme de traçage plus discrète mais bien efficace.

Le bilan est effectivement assez navrant, il faut que je le mette au propre pour le partager.

J’en avais profité pour tester la partie SSL pour faire un bilan sur les certificats utilisés… et testé la connectivité IPv6

cpm · Février 29, 2016, 1:54pm

Excellent \ooooo/ Ça me semble effectivement une tâche des plus pertinentes !
Avec tous mes encouragements

pguedj · Février 29, 2016, 2:07pm

Serait il possible de montrer, par exemple avec www.gouvernement.fr, quels sont ces traceurs et quelles données personnelles sont ainsi collectées ?

Patrick

epommereau · Février 29, 2016, 2:38pm

Autre exemple dont nous avons déjà parlé avec Christian : les conséquences de l’utilisation de google maps, cartographie que l’on retrouve même parfois pour des usages internes (sur intranet).

La liste est longue des possibles risques pris lorsque l’on utilise cette API (ou d’autres API dans le cloud d’ailleurs…) dont le code n’est pas lisible et dont le contenu peut évoluer sans que le fournisseur n’ait à prévenir ou se justifier.

Lorsque l’on regarde de plus près les CGU on peut lire des chose (effrayantes) comme :

Lorsque vous importez, soumettez, stockez, envoyez ou recevez des contenus à ou à travers de nos Services, vous accordez à Google (et à toute personne travaillant avec Google) une licence, dans le monde entier, d’utilisation, d’hébergement, de stockage, de reproduction, de modification, de création d’œuvres dérivées (des traductions, des adaptations ou d’autres modifications destinées à améliorer le fonctionnement de vos contenus par le biais de nos Services), de communication, de publication, de représentation publique, d’affichage public ou de distribution publique desdits contenus.

En clair : importer des données = donner un droit d’usage des données…

cquest · Février 29, 2016, 2:43pm

www.gouvernement.fr utilise:

chez Google (7 URL): une police de caractères et Google Analytics + Google Tag Manager
chez Facebook (4 URL): un javascript pour se connecter et deux morceaux d’HTML, un GIF
chez XITI (1 URL): un petit GIF pour le suivi du traffic
chez doubleclick.net (1 URL)… liée à Google Analytics

ça fait beaucoup trop à mon goût

pguedj · Février 29, 2016, 2:59pm

Merci Christian pour ces précisions.

Je prends le premier item concernant une police de caractères
http://fonts.googleapis.com/css? …

Peux tu me dire en quoi ce lien divulgue les données personnelles de l’internaute (nom, prénom, date de naissance …) ? A priori (et peut être naïvement de ma part) aller cherche un fichier de police de caractères semble sans risque.

Patrick

cquest · Février 29, 2016, 3:14pm

On ne parle pas ici de divulgation de données personnelles, mais de données permettant de tracer un internaute.

On peut tracer les internautes par les fameux cookies, mais aussi sans cookie simplement en créant une empreinte de la configuration du navigateur (taille d’écran, version de navigateur, polices de caractères disponibles, plugins installés, etc).

Rattacher ces traces à des données personnelles se fait dans un second temps… car Facebook ou Google en connaît beaucoup sur nous, nos habitudes, nos comportements soit parce que nous leur avons directement fournit ces données, soient parce qu’ils les ont agrégé justement en nous traçant petit à petit.

cpm · Février 29, 2016, 3:37pm

Sauf qu’ils savent sur quel site tu étais, quand et depuis quelle IP. Et cela à chaque page que tu visites. Du coup ils peuvent construire un profil de toi. Ton surf sur le web est une donnée personnelle.

pguedj · Février 29, 2016, 4:48pm

Si je comprends bien cette situation conduit à deux problèmes :

1/ la durée de conservation des données par les entreprises mutualisant le service d’analyse de la fréquentation des sites, pouvant reconstituer ainsi dans la durée l’historique de navigation d’un internaute identifié par son adresse technique ;

2/ le croisement des données nominatives avec l’adresse technique par ces entreprises quand elles fournissent en outre un service identifiant l’internaute (mail …) ou ont un accord avec une entreprise fournissant un tel service identifiant (données personnelles récupérables alors par les cookies tiers ou par une empreinte partagée).

Comment éviter l’utilisation abusive des données personnelles par ces moyens ? Il serait déjà bien effectivement que les sites administratifs évitent de recourir à des fournisseurs ayant ces pratiques. Mais cela ne règle le problème que de façon limitée. La véritable solution réside plutôt dans le renégociation en cours qui fait suite à l’invalidation de l’accord safe harbor. Le groupe G29 des CNIL européennes devrait prévoir dans le nouvel accord des dispositions sur la durée de conservation et le croisement des données personnelles.

Safe Harbor : le G29 analyse les conséquences de la décision de la CJUE

Patrick

cquest · Février 29, 2016, 5:12pm

L’un (la solution légale), n’empêche pas l’autre (la solution technique).

Ne pas recourir à ces « services » reste quelque chose d’activable à court terme surtout qu’on a des outils de remplacement comme Piwik (utilisé ici et paramétré pour respecter un minimum d’anonymat).

A quoi sert d’utiliser une police de caractère distante ?
Il y a comme une forme de paresse à laisser les prestataires utiliser ces solutions de facilité.

cquest · Février 29, 2016, 9:56pm

Quelques chiffres rapidement extraits de l’analyse de la page d’accueil de 900 sites en .gouv.fr :

526 avec XITI (il me semble qu’il y a un marché public pour les stats, donc plutôt « normal » si c’est bien le cas)
195 un jQuery provenant du CDN Google (ajax.googleapis.com)
154 Google Analytics
108 avec du Google Maps
29 utilisent des polices Google (fonts.googleapis.com)

Mais aussi des morceaux de Mailchimp, jsdelivr.com, netdna.bootstrapcdn.com, etc…

Autre info…

488 tournent avec Apache
348 avec nginx
383 sites utilisent SPIP
219 eZ Publish
43 PHP
27 Drupal
12 ASP.NET et IIS

463 positionnent au moins un cookie.

noirbizarre · Mars 1, 2016, 4:11pm

La suppression pure et dure des ressources externes ne se limite que très rarement au choix d’un outil d’analyse du trafic.

Prenons le cas du blog d’Etalab par exemple, un simple blog, n’ayant pas faut l’objet de développement spécifique.
Il est autohébergé, suivi avec un Piwik autohébergé lui aussi, utilise:

des photos stockées sur Flickr
une font Google (tirée par le thème)
l’extension JetPack de wordpress pour profiter entre autre de widgets
l’affichage des gravatars

Supprimer ces trackers à l’échelle de ce blog revient à

Récupérer le stock de photo hébergé chez Flickr et les héberger nous même
Modifier le thème pour qu’il utilise, au choix, une autre font ou la même font mais recopiée en local
Supprimer tous les widgets fournis par JetPack
Supprimer l’affichage des gravatars ou utiliser Libravatar

Ces opérations, si elles peuvent paraître simple pour un tech ne le sont pas forcement pour un utilisateur.
Le blog étant hébergé entièrement chez Blogger (Google) avant, comment expliquer à l’équipe que ce choix de l’autohébergement n’est pas encore assez ?

Remplacer Flickr par un stockage statique bête et méchant, oui, mais quid des autres intégrations de ce même compte Flickr ?

La modification du thème: est-il raisonnablement possible de demander à un utilisateur néophyte de contrôler le css d’un thème wordpress pour vérifier qu’il n’y a pas de police Google ? Je ne pense pas. Faut-il donc qu’il y ai systématiquement des personnes dont la mission est le contrôle de ces thèmes/extensions… ?

choix des extensions: la problématique est encore plus prononcée que sur la partie « thème »: il n’est pas envisageable de demander à un utilisateur final de contrôler lui même qu’une extension n’inclus pas, et ce même de façon indirecte, un tracker. Une liste d’extensions validée pourrait aider sur ce sujet (idem pour les thèmes)

Gravatar vs Libravatar: là, la problématique est réellement différente, c’est un problème de masse critique. A quoi bon utiliser Libravatar si aucun des mails n’y est reconnu ?

Bref, même s’il est facile de remplacer un Google Analytics (ou autre) par un Piwik, il est déjà plus compliqué de systématiquement se priver de service extérieur car cela implique (au choix):

du budget et du temps nécessaire pour déployer (facile) et maintenir (c’est là que le bât blesse en général) une alternative au dit service (quand elle existe)
les compétences en interne pour le faire
une argumentation pas évidente sur pourquoi se priver de tel ou tel service, quand celui-ci est massivement utilisé par les supérieurs, les voisins, les personnes qui vont conseiller…
une argumentation encore moins évidente sur pourquoi avoir migré sur une approche (auto-hébergement) censée nous donner moins de contraintes, plus de contrôle, plus d’autonomie et plus de souveraineté introduit autant de complexité et de coûts cachés

N’est-ce pas dans certains cas ouvrir la porte à la position « puisque c’est pareil, autant que j’aille entièrement chez Google, ça me coûte moins cher, j’ai pas besoin d’avoir un tech à mes côté » ?

(je livre ma réflexion pêle-mêle)

cpm · Mars 1, 2016, 5:18pm

Sincèrement, en quoi un TrucAvatar est une fonctionnalité pertinente ? Charger une photo via le profil est-il si compliqué ? Surtout quand on a déjà l’image prête sur son disque dur !!!
Ce genre de fausse bonne fonctionnalité ne sert qu’à rendre le traçage des utilisateurs plus facile pour certaines entreprises.

cpm · Mars 1, 2016, 5:20pm

Si le produit est incapable de se passer de Flickr alors c’est vraiment un produit non intéressant. Mauvais produit, changer produit.

cpm · Mars 1, 2016, 5:23pm

Non, il s’agit d’utiliser les bons produits. Alors, oui, d’accord, de bons produits sont-ils disponibles ?!!! Oui, le problème est là. Et les questions deviennent :

faut-il utiliser de mauvais produits ? (la réponse me semble évidente) ;
que pouvons-nous faire pour favoriser les bons produits utilisant les bonnes pratiques ?

noirbizarre · Mars 1, 2016, 6:17pm

J’essaie d’être constructif, l’argument qui consiste à dire, que tous le monde à choisi un mauvais produit me parait, comment dire, non constructif et totalement irréaliste.
J’essaie de voir la raison d’être de la présence de ces traceurs en prenant un exemple ou il y a déjà à la base un démarche de « mieux faire ».

XXXAvatar est surtout intéressant pour les commentaires (j’ai pris le blog Etalab pour illustrer, mais c’est applicable partout où l’on peut commenter en laissant juste son mail).
Si effectivement il est simple pour un membre de l’équipe de mettre une photo de profil (encore que Wordpress ne le permette pas par défaut), je ne vois pas l’intérêt de forcer un utilisateur à créer un compte sur un blog pour commenter une seule fois.
La pertinence de la fonctionnalité, comme tout ce qui est visuel, ça sert à rendre l’environnement plus humain, moins anxiogène, donc plus propice à l’échange.

Toujours très réducteur comme vision des choses. On ne peut pas simplement jeter l’existant et tout recommencer.
Dans le cas présent, se pose la question du rapatriement du stock (tout à fait gérable dans ce cas, mais ça n’est pas toujours le cas), mais aussi celle de la fonction principale du service: rendre les photos disponible, intégrable facilement dans d’autres produits (une API) et avec une interface utilisateur simple.
A aucun moment je n’ai dit qu’il était impossible de se passer de Flickr, j’ai juste dit qu’il était présent historiquement, que son utilisation répondait à un besoin et que son retrait nécessite forcement de voir les impacts.

Un bon produit n’existe pas dans l’absolu, il est bon uniquement parce qu’il répond à un besoin donné, à un instant T.
900 sites en gouv.fr, je doute fortement que les 900 projets ai démarré en se disant « tiens, et si on utilisait un mauvais produit ».
Il est très facile de partir sur de bonnes base pour de nouveaux projets.
Là on parle du stock.

faut-il utiliser de mauvais produits ?

Je ne répondrais même pas, ça n’est pas constructif, ça n’apporte aucune solution, aucune meilleur compréhension du problème

que pouvons-nous faire pour favoriser les bons produits utilisant les bonnes pratiques ?

Je pense que c’est réducteur comme question, puisqu’un bon produit dans l’absolu n’existe pas et face à 2 besoins différents, un même produit peut être bon et mauvais suivant les situations.

La question des bonnes pratiques me semble quant à elle plus intéressante et découpable toujours en 2 parties: stocks et nouveaux projets.

Du coup, on en arrive à 2 questions:

Quels sont les principaux trackers trouvés sur les sites existants et comment les remplacer facilement, à périmètre fonctionnel équivalent autant que possible ?
Quels sont du coup les services ou produits facilements intégrables pour de nouveau projets, pour chaque fonctionnalité ?

Le corollaire de la 2e question est lui aussi valable: quels sont les produits à éviter et pourquoi ? (C’est toujours mieux d’éduquer qu’imposer)

scomte · Mars 2, 2016, 7:49am

Avec LightBeam pour Firefox j’obtiens ça :

il y a ceinture et bretelles : xiti + google-analytics
comme il y a google, il y a doubleclick
et facebook bien sûr…

j’ai désactivé ublock pour la démo. Malgré tout, lightbeam me renvoie un résultat moins complet que celui de @cquest . curieux…

cquest · Mars 2, 2016, 8:53am

Euh… non ça a l’air complet. Quelle différence voyez vous ?

scomte · Mars 2, 2016, 9:03am

Pour ce qui est des sites c’est complet, mais vous recensez 13 liens, alors que lightbeam n’en donne que 9. Je suppose qu’il ne liste pas les .gif . Ça n’est pas très grave et continue de poser question sur le fond…