Rendre des données anonymes

Par Mathieu P., jeudi, août 24 2006. Lien permanent Recherche

Laurent Guerby continuant régulièrement à râler contre l'absence de données publiques anonymisées, j'ai l'impression qu'il faut remettre quelques éléments en place sur ce que ce terme recouvre.

Reprenons le paragraphe légal que je citais dans mon précédent billet :

Il interdit, pendant une durée de cent ans, toute communication de données ayant trait aux faits et comportements d'ordre privé recueillies au moyen d'une enquête statistique. Les renseignements d'ordre économique ou financier ne peuvent être communiqués à quiconque pendant une durée de trente ans. La même loi interdit toute utilisation de ces informations à des fins de contrôle fiscal ou de répression économique.

En pratique, cela veut dire qu'un jeu de données anonymisées doit garantir qu'aucune des personne enquêtées ne puisse être reconnue. Or, ces choses-là vont vite, très vite. Si on prend l'exemple de l'enquête Emploi, déjà cité, nous avons des variables géographiques assez fines. Imaginons une personne enquêtée dans un village de 300 habitants. Le simple fait de savoir qu'elle est mariée avec deux enfants et l'âge des enfants suffit à l'identifier. Pour anonymiser les données, il faut donc perdre de l'information, soit sur la localisation géographique, soit sur la structure familiale.

Maintenant, pour des données qui seraient en accès public, il faudrait s'assurer qu'aucun regroupement de variables ne permet ce type de manœuvres. Pour une enquête à 300 000 observations et plusieurs centaines de variables, je laisse aux matheux le soin d'évaluer le temps de calcul nécessaire pour la seule vérification, et l'ampleur de la perte d'information par rapport à la base de données initiale. On voit facilement le résultat : des données publiques inutilisables, et des données confidentielles accessibles aux personnes accréditées... soit la situation actuelle, moins le coût de production des données anonymisées. Contrairement à de que pense Laurent, en matière de statistiques économiques, la notion de "données brutes anonymisées" est une contradiction dans les termes, dans la mesure où l'anonymisation exige un traitement très lourd.

2 réactions

1 De KL - 24/08/2006, 23:11

Exemple rÃ©cent Ã©tayant votre thÃ¨se :

www.actuchomage.org/modul...

".....Avouons que le concours de circonstances nous est particuliÃ¨rement dÃ©favorable : Cet internaute lambda a identifiÃ© un message postÃ© parmi les 20.000 que comptent nos forums. Il a Ã©tÃ© en mesure Â«dâ€™apprÃ©cierÂ» le caractÃ¨re dÃ©lictueux de son contenu â€“ ce qui nâ€™est pas Ã la portÃ©e du premier venu â€“ et dâ€™en informer dans les meilleurs dÃ©lais les services de police concernÃ©s (en lâ€™occurrence â€“ semble-t-il â€“ le commissariat ...). "
2 De Coujou - 25/08/2006, 11:34

Il y a quelques temps, j'avais assistÃ© Ã une confÃ©rence donnÃ©e par des chercheurs travaillant sur cette problÃ©matique. Leur objectif Ã©tait d'anonymiser les donnÃ©es : pas seulement supprimer le nom mais vraiment rendre un sujet non identifiable.

Pour cela, ils modifiaient des donnÃ©es individuelles de faÃ§on Ã prÃ©server autant que possible les donnÃ©es statistiques finales. Apparemment, le principal problÃ¨me est qu'il est difficile d'appliquer cette mÃ©thode sur des jeux de donnÃ©es dont on va extraire beaucoup de donnÃ©es statistiques ou dont ne sait pas encore quelles seront les statistiques extraites.

Pour plus d'info, chercher "statistical disclosure control"

Notes d'un économiste

Rendre des données anonymes

2 réactions

Recherche

Catégories

Pages

Liens

Science lugubre

Universitaires

Juristes

Infomatheux

Wikipédiens

Comics

S'abonner