Rares, les données économiques ? Pourtant, me direz-vous, les journaux en regorgent : il suffit de voir l'excitation face à la moindre variation du taux de chômage ou du PIB, ou encore les pages économiques du premier quotidien venu. Pourtant, force est de constater que les chiffres les plus élémentaires (PIB de la France, budget de l'État, au hasard) sont très mal connues. Trop de chiffres, et surtout une mauvaise utilisation des chiffres, tue les chiffres.

Cependant, on pourrait s'attendre à ce que cette restriction tombe dès qu'on s'approche du domaine de la recherche. Que nenni ! Très peu d'économistes publient, avec leurs articles, les bases de données qui leur ont servi. Pourquoi ? D'une part, il y a un effet d'opportunité interne. Ils ont investi beaucoup de temps dans la construction de ces données, et le seul moyen de rentabiliser ce temps est d'être les seuls à publier sur la base des données en question. Evidemment, cela conduit à des controverses sans fin quand les calculs sont effectués sur des jeux de données subtilement différents. Les données se heurtent donc au problème de tous les biens dont le coût de production initial est très élevé, (enquête, nettoyage,...) mais dont le coût marginal (copier la base sur un autre ordinateur) est très faible.

Une solution connue à ce problème est d'en subventionner la production. On n'a d'ailleurs pas attendu ce billet pour y penser : c'est le rôle de l'INSEE en France. Malheureusement, l'INSEE a déjà fort à faire avec son propre mandat, et à autre chose à faire que d'examiner les desiderata de centaines de demandeurs d'enquête avec telle-ou-telle-question-dedans. Et on ne parle pas des pauvres thésardes en économie du développement qui doivent mettre sur pied une enquête dans un pays africain, contre vents, marées et coopération aléatoire des autorités du pays en question. On comprend alors que seuls les auteurs de l'enquête ou leurs co-auteurs soient autorisés à publier des articles fondés sur ces données. Compréhensible, certes, mais efficace...

Dans le cas français, beaucoup de chiffres sont effectivement disponibles sur le site de l'INSEE. L'accès aux bases complètes, cependant, est réservé aux chercheurs, qui passent par des institutions comme le Centre Maurice Halbwachs ou le Centre Quételet. Pourquoi restreindre l'accès aux chercheurs ? La réponse est assez simple : toute donnée économique peut être considérée par sensible pour quelqu'un. Du coup, plutôt que de devoir se battre pied à pied contre tous les usages néfastes (par falsification des résultats ou des données elles-mêmes, par méconnaissance de leurs limites ou de celles des méthodes d'analyse de données), les institutions de production préfèrent en restreindre l'accès à des personnes ayant a priori les compétences nécessaires. Une simple application de la théorie du signal vous dit alors qu'il est rationnel de restreindre l'accès aux chercheurs, au détriment certes des dilettantes, mais aussi des illuminés en tous genres.

Il n'en reste pas moins que même pour un chercheur, l'accès aux données françaises est tout sauf facile. En effet, l'impératif d'anonymat plus que le poids des bases empêche souvent d'utiliser le fantastique gisement de données que représentent le recensement, la base SIRENE ou les DADS. Dès qu'on s'intéresse à des variables plus fines, au hasard les ventes de disques en France ou le nombre de téléphones mobiles par région, on entre dans des domaines considérés comme vitaux parmi les acteurs des secteurs considérés, qui regardent toujours avec méfiance les chercheurs. Du coup, il existe en France une masse considérable de données non exploitées, parce que les entreprises qui en disposent n'y voient pas l'intérêt, voient au contraire l'usage que pourrait en avoir leurs concurrents. À un niveau plus élevé, cela pèse même sur la qualité des données disponibles. Ainsi, en France, les chiffres de ventes de livres publiés par le Ministère de la Culture sont issus d'un sondage du Centre National de l'édition, qui ne concerne que 400 maisons sur les 3000 recensés par l'INSEE. Evidemment, ces données sont communiquées à un niveau très agrégé. Sinon, on pourrait aisément savoir quel est l'impact de l'ouverture d'une FNAC sur la vente de livres et l'activité des libraires dans une ville.

Cette situation n'est pas un exemple isolé : l'intérêt pour la production de données a crût bien plus vite que l'intérêt pour ce que disent ces données. C'est une chance pour les futurs économistes, mais aussi excessivement frustrant pour ceux qui, actuellement, savent qu'existent toutes ces belles bases qui leur ouvriraient un chemin vers le Graal (pardon, un article dans une revue internationale), et que personne ne s'y intéresse, sauf pour leur en interdire l'accès.