Reprenons le paragraphe légal que je citais dans mon précédent billet :
Il interdit, pendant une durée de cent ans, toute communication de données ayant trait aux faits et comportements d'ordre privé recueillies au moyen d'une enquête statistique. Les renseignements d'ordre économique ou financier ne peuvent être communiqués à quiconque pendant une durée de trente ans. La même loi interdit toute utilisation de ces informations à des fins de contrôle fiscal ou de répression économique.
En pratique, cela veut dire qu'un jeu de données anonymisées doit garantir qu'aucune des personne enquêtées ne puisse être reconnue. Or, ces choses-là vont vite, très vite. Si on prend l'exemple de l'enquête Emploi, déjà cité, nous avons des variables géographiques assez fines. Imaginons une personne enquêtée dans un village de 300 habitants. Le simple fait de savoir qu'elle est mariée avec deux enfants et l'âge des enfants suffit à l'identifier. Pour anonymiser les données, il faut donc perdre de l'information, soit sur la localisation géographique, soit sur la structure familiale.
Maintenant, pour des données qui seraient en accès public, il faudrait s'assurer qu'aucun regroupement de variables ne permet ce type de manœuvres. Pour une enquête à 300 000 observations et plusieurs centaines de variables, je laisse aux matheux le soin d'évaluer le temps de calcul nécessaire pour la seule vérification, et l'ampleur de la perte d'information par rapport à la base de données initiale. On voit facilement le résultat : des données publiques inutilisables, et des données confidentielles accessibles aux personnes accréditées... soit la situation actuelle, moins le coût de production des données anonymisées. Contrairement à de que pense Laurent, en matière de statistiques économiques, la notion de "données brutes anonymisées" est une contradiction dans les termes, dans la mesure où l'anonymisation exige un traitement très lourd.
2 réactions
1 De KL - 24/08/2006, 23:11
Exemple récent étayant votre thèse :
www.actuchomage.org/modul...
".....Avouons que le concours de circonstances nous est particulièrement défavorable : Cet internaute lambda a identifié un message posté parmi les 20.000 que comptent nos forums. Il a été en mesure «d’apprécier» le caractère délictueux de son contenu – ce qui n’est pas à la portée du premier venu – et d’en informer dans les meilleurs délais les services de police concernés (en l’occurrence – semble-t-il – le commissariat ...). "
2 De Coujou - 25/08/2006, 11:34
Il y a quelques temps, j'avais assisté à une conférence donnée par des chercheurs travaillant sur cette problématique. Leur objectif était d'anonymiser les données : pas seulement supprimer le nom mais vraiment rendre un sujet non identifiable.
Pour cela, ils modifiaient des données individuelles de façon à préserver autant que possible les données statistiques finales. Apparemment, le principal problème est qu'il est difficile d'appliquer cette méthode sur des jeux de données dont on va extraire beaucoup de données statistiques ou dont ne sait pas encore quelles seront les statistiques extraites.
Pour plus d'info, chercher "statistical disclosure control"