Reprenons le paragraphe légal que je citais dans mon précédent billet :

Il interdit, pendant une durée de cent ans, toute communication de données ayant trait aux faits et comportements d'ordre privé recueillies au moyen d'une enquête statistique. Les renseignements d'ordre économique ou financier ne peuvent être communiqués à quiconque pendant une durée de trente ans. La même loi interdit toute utilisation de ces informations à des fins de contrôle fiscal ou de répression économique.

En pratique, cela veut dire qu'un jeu de données anonymisées doit garantir qu'aucune des personne enquêtées ne puisse être reconnue. Or, ces choses-là vont vite, très vite. Si on prend l'exemple de l'enquête Emploi, déjà cité, nous avons des variables géographiques assez fines. Imaginons une personne enquêtée dans un village de 300 habitants. Le simple fait de savoir qu'elle est mariée avec deux enfants et l'âge des enfants suffit à l'identifier. Pour anonymiser les données, il faut donc perdre de l'information, soit sur la localisation géographique, soit sur la structure familiale.

Maintenant, pour des données qui seraient en accès public, il faudrait s'assurer qu'aucun regroupement de variables ne permet ce type de manœuvres. Pour une enquête à 300 000 observations et plusieurs centaines de variables, je laisse aux matheux le soin d'évaluer le temps de calcul nécessaire pour la seule vérification, et l'ampleur de la perte d'information par rapport à la base de données initiale. On voit facilement le résultat : des données publiques inutilisables, et des données confidentielles accessibles aux personnes accréditées... soit la situation actuelle, moins le coût de production des données anonymisées. Contrairement à de que pense Laurent, en matière de statistiques économiques, la notion de "données brutes anonymisées" est une contradiction dans les termes, dans la mesure où l'anonymisation exige un traitement très lourd.