Où sont les données ?
Régulièrement, j'ai entendu Lauren Guerby regretter que les données sur lesquelles travaillent les économistes ne soient pas largement disponibles. Etant moi-même confronté à ce genre de problèmes, voici quelques éléments d'explication quant à la rareté (relative) des données économiques.
Rares, les données économiques ? Pourtant, me direz-vous, les journaux en regorgent : il suffit de voir l'excitation face à la moindre variation du taux de chômage ou du PIB, ou encore les pages économiques du premier quotidien venu. Pourtant, force est de constater que les chiffres les plus élémentaires (PIB de la France, budget de l'État, au hasard) sont très mal connues. Trop de chiffres, et surtout une mauvaise utilisation des chiffres, tue les chiffres.
Cependant, on pourrait s'attendre à ce que cette restriction tombe dès qu'on s'approche du domaine de la recherche. Que nenni ! Très peu d'économistes publient, avec leurs articles, les bases de données qui leur ont servi. Pourquoi ? D'une part, il y a un effet d'opportunité interne. Ils ont investi beaucoup de temps dans la construction de ces données, et le seul moyen de rentabiliser ce temps est d'être les seuls à publier sur la base des données en question. Evidemment, cela conduit à des controverses sans fin quand les calculs sont effectués sur des jeux de données subtilement différents. Les données se heurtent donc au problème de tous les biens dont le coût de production initial est très élevé, (enquête, nettoyage,...) mais dont le coût marginal (copier la base sur un autre ordinateur) est très faible.
Une solution connue à ce problème est d'en subventionner la production. On n'a d'ailleurs pas attendu ce billet pour y penser : c'est le rôle de l'INSEE en France. Malheureusement, l'INSEE a déjà fort à faire avec son propre mandat, et à autre chose à faire que d'examiner les desiderata de centaines de demandeurs d'enquête avec telle-ou-telle-question-dedans. Et on ne parle pas des pauvres thésardes en économie du développement qui doivent mettre sur pied une enquête dans un pays africain, contre vents, marées et coopération aléatoire des autorités du pays en question. On comprend alors que seuls les auteurs de l'enquête ou leurs co-auteurs soient autorisés à publier des articles fondés sur ces données. Compréhensible, certes, mais efficace...
Dans le cas français, beaucoup de chiffres sont effectivement disponibles sur le site de l'INSEE. L'accès aux bases complètes, cependant, est réservé aux chercheurs, qui passent par des institutions comme le Centre Maurice Halbwachs ou le Centre Quételet. Pourquoi restreindre l'accès aux chercheurs ? La réponse est assez simple : toute donnée économique peut être considérée par sensible pour quelqu'un. Du coup, plutôt que de devoir se battre pied à pied contre tous les usages néfastes (par falsification des résultats ou des données elles-mêmes, par méconnaissance de leurs limites ou de celles des méthodes d'analyse de données), les institutions de production préfèrent en restreindre l'accès à des personnes ayant a priori les compétences nécessaires. Une simple application de la théorie du signal vous dit alors qu'il est rationnel de restreindre l'accès aux chercheurs, au détriment certes des dilettantes, mais aussi des illuminés en tous genres.
Il n'en reste pas moins que même pour un chercheur, l'accès aux données françaises est tout sauf facile. En effet, l'impératif d'anonymat plus que le poids des bases empêche souvent d'utiliser le fantastique gisement de données que représentent le recensement, la base SIRENE ou les DADS. Dès qu'on s'intéresse à des variables plus fines, au hasard les ventes de disques en France ou le nombre de téléphones mobiles par région, on entre dans des domaines considérés comme vitaux parmi les acteurs des secteurs considérés, qui regardent toujours avec méfiance les chercheurs. Du coup, il existe en France une masse considérable de données non exploitées, parce que les entreprises qui en disposent n'y voient pas l'intérêt, voient au contraire l'usage que pourrait en avoir leurs concurrents. À un niveau plus élevé, cela pèse même sur la qualité des données disponibles. Ainsi, en France, les chiffres de ventes de livres publiés par le Ministère de la Culture sont issus d'un sondage du Centre National de l'édition, qui ne concerne que 400 maisons sur les 3000 recensés par l'INSEE. Evidemment, ces données sont communiquées à un niveau très agrégé. Sinon, on pourrait aisément savoir quel est l'impact de l'ouverture d'une FNAC sur la vente de livres et l'activité des libraires dans une ville.
Cette situation n'est pas un exemple isolé : l'intérêt pour la production de données a crût bien plus vite que l'intérêt pour ce que disent ces données. C'est une chance pour les futurs économistes, mais aussi excessivement frustrant pour ceux qui, actuellement, savent qu'existent toutes ces belles bases qui leur ouvriraient un chemin vers le Graal (pardon, un article dans une revue internationale), et que personne ne s'y intéresse, sauf pour leur en interdire l'accès.
Publié le vendredi, juin 2 2006, par Mathieu P. dans la catégorie : Recherche - Lien permanent
Commentaires
vendredi, juin 2 2006
18:05
j'ajoute deux choses :
— Olivier Bouba-Olga*les données dont on a besoin évoluent en fonction des problématiques que l'on développe, et les statistiques produites sont souvent et inévitablement en retard... Pour ma part, je travaille pas mal sur des problèmes développement économique local, montre (avec beaucoup d'autres) l'importance des relations non locales dans les potentialités de développement économique, mais les données relationnelles sont peu développées, et quand elles existent, elles ne sont que rarement spatialisées...
* à un niveau licence ou master, je fais travailler des étudiants sur des analyses de secteur. Au départ, ils me disent qu'ils ne trouvent rien, que c'est désespérant, etc... Au bout d'un certain temps... ils se noient sous l'information disponible! Je dirais que si on a un problème de rationalité limitée, il tient moins à un manque d'information qu'à un trop plein, et à la difficulté à collecter, trier, analyser, interpréter les données
Ca n'enlève rien aux éléments que vous mentionnez, mais c'était pour dire qu'il y a d'autres problèmes à prendre en compte!
vendredi, juin 2 2006
23:49
Petits compléments :
— François/phnk* Le réseau Quételet n'existe plus ou presque, si ma mémoire est bonne, mais le CIDSP de Grenoble conserve les données.
* La Fondation Nationale des Sciences Politiques a lancé la Banque de Données Sociopolitiques, avec un panel important.
* Ne pas oublier l'INED et l'INSERM pour les données populationnelles et épidémiologiques.
* Beaucoup de données transitent par le privé en toutes circonstances (OCDE en premier lieu).
Notre relation aux stats est très particulière (cf. la "légitimité discrète" chez Desrosières et le spectre de la récupération des données ; en France, il est par exemple interdit de construire des cartes à des échelles trop précises, seule l'armée construit des cartes au centimètre).
Pourtant nous étions précurseurs au XVIII° : Bernouilli, Condorcet, Laplace… puis au XIX° en santé publique : Villermé, j'en oublie (travaux de Bourdelais à l'INED). La tendance s'est inversée en partie depuis, sous l'influence peut-être de plusieurs régimes restrictifs (informatique et libertés, les interdictions sur la collecte de certaines données, etc.).
Votre question est extrêmement intéressante par ailleurs. Il y a eu un colloque ENSAE sur la stat. et la politique, les actes devraient contenir qq éléments de réponse supplémentaires.
dimanche, juin 4 2006
16:48
Le raisonnement proposé ne sous-tend-il pas qu'il faille être chercheur professionnel, c'est à dire non seulement qualifié, mais aussi agréé, pour être compétent dans l'analyse des données ? Cette hypothèse me semble pour le moins excessive.
— PassantUne légence urbaine affirme qu'on peut acheter des tas de données aux USA sur un peu tout et n'importe quoi sanbs que la qualité de la production des analyses relatives semble en souffrir, d'ailleurs.
mardi, juin 6 2006
16:10
D'expérience, la qualité de chercheur professionnel ne suffit même pas à être compétent dans l'analyse des données. Ces dernières semaines, j'ai assisté à plusieurs séminaires ou les intervenants, enseignants-chercheurs ou chercheurs dans des organismes para-publics, ont présenté des travaux comportant des maladresses évidentes dans le traitement des données.
Je n'ai jamais entendu parler de la légende urbaine dont vous faites mention. Les papiers empiriques qui me sont tombés sous les yeux sur données américaines emploient soit des données publiées par l'administration américaine (dont j'aimerais bien connaître le statut, puisque le travail des fonctionnaires américains est dans le domaine public, ces chiffres le sont-ils aussi), ou des enquêtes émanant d'institut privés, et présentant souvent des failles très problématique. Bref, je doute que la situation soit beaucoup plus rose ailleurs.
— leconomistemardi, juin 6 2006
20:01
Toute malice mise à part, ne serait-il pas envisageable de pointer du doigt les travaux comportant des "maladresses (trop) évidentes dans le traitement des données", ou plutôt, leurs auteurs ?
— PassantIl est vrai que, du coup, je comprends l'intérêt, pour les producteurs de données dont l'ambition n'est pas strictement lucrative, d'éviter de trop facilement confier ses données à des personnes susceptibles de commettre des maladresses avec : le fait qu'on sache par ailleurs que certaines d'entre elles sont par ailleurs payées à plein temps peut en effet inciter à limiter la diffusion par ce qui leur manque le plus : les budgets de fonctionnement ou la capacité à réaliser rapidement un paiement.