Notes d'un économiste - Recherche2021-05-21T15:18:09+02:00Mathieu Peronaurn:md5:939382452da12601e54815d01228196fDotclearÉpidémie et recherche académiqueurn:md5:da1974aae2cdecc6186010b60bcb3dbb2020-05-12T10:00:00+02:002020-05-12T10:00:00+02:00Mathieu P.RechercheCovid-19Fonctionnement de la recherche<p><strong>Dès qu'il a été évident que l'épidémie de Covid-19 serait un événement majeur, de très nombreux projets de recherche se sont mis en place, encouragés par un appel dédié de l'ANR. Au 11 mai 2020, une recension fait état de pratiquement une centaine de projets rien qu'en sciences humaines et sociales. Parallèlement, j'ai vu passer un grand nombre de questionnaires en ligne examinant de multiples aspects de nos réactions à la situation.</strong>
<strong>À mes yeux, l'épidémie a ainsi joué le rôle d'une loupe sur le fonctionnement actuel de la recherche en France, tant sur ses forces que sur certains de ses travers.</strong></p> <h3>Que fleurissent mille études</h3>
<p>Dire que l'épidémie est une situation d'urgence revient à enfonçer une porte ouverte. Je le fais pourtant, et sans ménagement. Il y a bien sûr l'urgence de disposer de faits et de chiffres pour informer la décision publique. Dans une telle incertitude, il faut de l'information, très rapidement, afin de fixer les priorités. Il y a aussi, et c'est moins évident hors du domaine, une urgence à collecter les données. Le confinement a-t-il entraîné des changements de comportement, par exemple dans la répartition de la charge mentale ou des tâches domestiques ? Si on attend tant soit peu, il sera difficile de le savoir : les souvenirs rétrospectifs sont peu fiables. Cela explique le lancement très rapide d'enquêtes en ligne qui, si elles ne peuvent par construction pas être représentatives, ont le mérite d'enregistrer un état d'une partie de la population avant que l'oubli ou la ré-écriture <em>a posteriori</em> ne vienne biaiser encore plus l'information.</p>
<p>Il fallait donc lancer très vite des questionnaires et sondages, et le bouleversement était tel que le nombre de questions qu'on pouvait - devait - légitimement poser était immense. Il l'est d'ailleurs encore en ce premier jour de déconfinement progressif. De fait, je relève l'immense réactivité des très nombreuses équipes - on parle en centaines de projets - qui ont réussi en quelques jours, semaines tout au plus, à adapter leurs questionnements de recherche aux nouveaux enjeux, à concevoir et mettre en ligne les questionnaires, et pour certaines à fournir les premiers résultats pour informer l'action publique. Pour reprendre un terme à la mode, la recherche française en sciences sociales a fait là preuve d'une extrême agilité.</p>
<h3>De la multiplication à la fatigue</h3>
<p>Le revers de cette réaction très rapide a été, de mon point de vue, un très faible niveau de coordination. Moi-même partie prenante<sup>[<a href="http://www.leconomiste-notes.fr/index.php?post/2020/05/11/%C3%89pid%C3%A9mie-et-recherche-acad%C3%A9mique#wiki-footnote-1" id="rev-wiki-footnote-1">1</a>]</sup>, je me suis astreint à remplir les questionnaires que je voyais passer dans mon fil Tiwtter, pour autant que l'équipe de recherche semble un minimum crédible. Je n'ai pu échapper à la sensation de répondre de nombreuses fois aux mêmes questions - qui sont d'ailleurs aussi celles que nous avons posées dans nos propres enquêtes. Des questions logiques, donc, mais dont les réponses vont être éparpillées dans un grand nombre d'enquêtes et d'études, impossibles à rassembler en pratique en un méta-échantillon. Pour ne donner qu'une raison : mes propres réponses vont figurer dans au moins une dizaine de ces enquêtes, sans qu'il soit possible, du fait de l'anonymisation, de repérer les doublons. Je me demande aussi si la multiplication de ces enquêtes n'a pas engendré une certaine fatigue, au détriment de celles arrivées plus tard dans la période de confinement.</p>
<h3>Et maintenant ?</h3>
<p>Toutes ces données vont naturellement nourrir de très nombreux travaux. Comme le faisait remarquer <a href="https://twitter.com/Calimaq">@Calimaq</a>, il y a une forte prime à la nouveauté, celle de publier rapidement sur une base d'enquête originale. Les chercheurs et les organismes ont beaucoup moins d'incitations à assurer la diffusion et la préservation de ces données dans la durée. On peut se demander ce qu'il restera d'exploitable de ces bases de données lorsqu'on voudra les réinterroger à la lumière de la prochaine pandémie, dans cinq, dix ou vingt-cinq ans. Il restera certainement les productions de la statistique publique, versées à leur rythme dans les services communs ADISP/Progedo. Mais toutes les productions des autres équipes de recherche ?</p>
<p>Je me prends du coup à imaginer ce qui aurait pu être, et ce qui pourrait être mis en place avant le prochain événement de ce type : une grande infrastructure de recherche, comme peuvent l'être Progedo ou HumaNum, consacrée à la diffusion de questionnaires en ligne et à l'archivage des réponses au profit de l'ensemble de la communauté scientifique. Il aurait été ainsi possible d'imaginer un questionnaire modulaire, avec éventuellement une dimension de panel, qui aurait posé de manière aléatoire et tournantes des jeux de question proposées par la communauté. En échange de ce service rendu, l'ensemble des réponses serait accessible à toutes les équipes qui ont contribué avec des questions. On peut imaginer tout une suite de service autour d'une telle infrastructure, comme le partage de codes ou de résultats préliminaires, de manière à faire naître les collaborations entre équipes plutôt que le travail en parallèle sur les mêmes sujets.</p>
<p>Je rêve les mains sur le clavier, j'en suis bien conscient. Pourtant, il me semble qu'une telle infrastructure ferait sens - nous seulement dans la situation actuelle, mais aussi dans des temps plus normaux, où nous sommes déjà tant d'équipes à poser - parfois à grands frais - des questions très similaires.</p>
<div class="footnotes"><h4>Note</h4>
<p>[<a href="http://www.leconomiste-notes.fr/index.php?post/2020/05/11/%C3%89pid%C3%A9mie-et-recherche-acad%C3%A9mique#rev-wiki-footnote-1" id="wiki-footnote-1">1</a>] Transparence : le CEPREMAP a participé au financement de la vague spécifique de l'enquête Conditions de vie et Aspirations du Credoc, et participe à l'analyse des résultats de la vague spéciale du Baromètre de la confiance politique du CEVIPOF.</p></div>
Les auditionsurn:md5:aaf6e00e36f8dad389c83f84f36f34b32011-05-12T15:48:00+02:002011-05-12T16:13:44+02:00Mathieu P.RechercheRecrutementUniversité<p><strong>Je suis actuellement dans la phase des auditions pour des postes de maître de conférences, ce qui explique le rythme ralenti de ce blog. Quelques mots quand même sur cette étape.</strong></p> <h2>Le problème de la coordination</h2>
<p>Petit schéma des épisodes précédents : si les universités peuvent recruter à n'importe quel moment en France (postes dits « au fil de l'eau »), la plupart concentrent cette activité dans le cadre d'une campagne synchronisée, c'est-à-dire maintenant. Les postes sont donc publiés sur un serveur hébergé par le Ministère de l'enseignement supérieur et de la recherche (<a href="https://www.galaxie.enseignementsup-recherche.gouv.fr/ensup/candidats.html" hreflang="fr" title="Serveur GALAXIE">GALAXIE</a> pour les intimes). Vous envoyez un dossier (papier ou électronique, c'est selon) sur tous les postes correspondant à votre profil. Cela, c'est courant mars.</p>
<p>Les universités réunissent ensuite les commissions de recrutement pour décider parmi les dossiers reçus quels candidats ils vont auditionner. Si certaines ont la bonne idée de préciser assez rapidement quel sera la date de la commission et celle des auditions, la plupart ne le font pas, ce qui rend un brin stressant le mois de mai pour les candidats. Vous recevez ensuite un mail, soit émanant de l'université elle-même (en général bon signe) ou de GALAXIE (plutôt mauvais signe) indiquant si et quand vous êtes convoqué pour une audition.</p>
<p>Les auditions étant rassemblées sur une période de deux semaines, il suffit de peu d'auditions pour en avoir deux (ou plus) le même jour, au point qu'il est souvent impossible de se rendre au deux et qu'il faut le plus souvent choisir <em>a priori</em>.</p>
<h2>Le problème de l'allocation</h2>
<p>Une fois les auditions passées, les commissions établissent pour chaque poste un classement des candidats. Ce classement est ensuite validé (ou non, mais c'est rare) par le Conseil d'administration de l'université concernée. Dans le cadre de la procédure synchronisée, si j'ai bien compris, les candidats peuvent alors, sur GALAXIE, donner leur ordre de préférence entre les universités qui les ont classés. Ils sont alors alloués en fonction des appariement compatibles</p>
<p>Pour les théoriciens, cela fait furieusement penser à une <a href="http://en.wikipedia.org/wiki/Stable_marriage_problem" hreflang="fr" title="Stable marriage problem sur la Wikipédia anglophone">procédure de Gale-Shapley</a> (tiens, pas d'article sur la Wikipédia francophone, ou il manque un interwiki), avec les université dans le rôle des hommes et les candidats dans le rôle des femmes (en suivant la présentation habituelle du problème). Il semble me souvenir qu'il est possible de prouver que parmi les allocations stables (il n'existe pas de paire de candidats prêts à échanger leurs places et que les universités soient d'accord), celle résultat de cette division des rôle est optimale pour les universités (elles ont le meilleur candidat que leur permet un arrangement stable) mais pessimal pour les candidats)</p>
<p>Je n'ai pas le temps de regarder cela en détail, mais :</p>
<ol>
<li>La procédure d'allocation des candidats correspond-elle bien à celle de Gale-Shapley ? Il ne me semble pas évident que l'expression directe de l'ordre de préférence des candidats soit équivalent à l'acceptation provisoire de l'algorithme de référence.</li>
<li>Est-ce que je raconte n'importe quoi sur l'optimalité de l'allocation ?</li>
</ol>Valoriser son temps de recherche sur Wikipédiaurn:md5:ec6bcf79ae207a5d30c85624557838592011-04-02T15:10:00+02:002011-04-04T06:39:50+02:00Mathieu P.Recherche<p><strong>Je rebondis ici sur une commentaire de fuucx à <a href="http://www.leconomiste-notes.fr/dotclear2/index.php/post/2011/03/28/Chercheurs-%3A-que-faire-sur-Wikip%C3%A9dia">mon précédent billet</a>. Il y faisait remarquer qu'écrire sur Wikipédia pouvait constituer une bonne manière de valoriser son temps de recherche car cela permettait de faire quelque chose d'éléments de recherches documentaires qui ne trouvaient pas leur chemin jusqu'à une publication. Il me semble que cette idée mérite un petit développement.</strong></p> <h2>Un bon point de départ</h2>
<p>En ce qui me concerne, il m'est arrivé plusieurs fois de me lancer dans des revues de littérature qui n'ont pas, ou très partiellement, débouché sur des articles. Je me retrouve donc avec des morceaux de synthèses qui traînent sur mon disque dur. Ce genre de matière constitue une excellente base de départ pour un article de Wikipédia : raisonnablement exhaustive, avec des références peu contestables et en général sur un point assez bien délimité. Transformer cela en un article ou un élément d'article de Wikipédia constitue une manière de valoriser ce temps de recherche en donnant une plus grande visibilité à la question qui m'a intéressée.</p>
<h2>De la revue de littérature à l'élément de Wikipédia</h2>
<p>Certes, la transformation demande un travail qui va au-delà du simple changement de syntaxe. Une revue de littérature peut tenir pour acquis des préliminaires qu'il faut expliciter dans un article Wikipédia. La revue est également souvent organisée selon des enjeux scientifiques (ressemblance des modèles ou des méthodes) plutôt que par enjeux de politique économique ou de description du phénomène, de dernier regroupement convenant mieux à un article. Il y a donc un effort de réorganisation à fournir. Selon moi, cet effort est utile au sens où il me permet de prendre du recul sur le sujet traité et de l'expliquer à quelqu'un qui ne serait pas intéressé par les questions de méthode mais uniquement par les résultats. Or, cette dernière description peut s'appliquer aussi bien au lecteur de Wikipédia qu'au participant à un séminaire d'économie généraliste.</p>
<h2>Maintenir un article</h2>
<p>J'essaye aussi d'utiliser Wikipédia comme un moyen d'engagement. Une revue de littérature, en effet, se périme d'autant plus vite que le champ considéré est actif. Il faut y revenir pour faire état des nouveaux résultats publiés, signaler les nouveaux développements ou les nuances à apporter aux intuitions précédentes. L'incitation pour faire cela sur une revue de littérature qui dort sur un disque est faible. Si celle-ci est sur Wikipédia, je me sens un peu responsable de voir sa qualité se dégrader au fil du temps, ce qui m'incite à y revenir quand j'ai un peu de temps (rare, ces derniers temps).</p>Thèseurn:md5:224624a4eaee0d3b6fec2020843ff8f72010-11-23T16:33:00+01:002010-11-23T16:33:00+01:00Mathieu P.Recherche<p><strong>Au moins deux personnes m'ont fait remarquer que le texte de ma thèse n'était pas accessible en ligne. Oubli désormais réparé.</strong></p> <p>On peut donc trouver le manuscrit <a href="http://www.pse.ens.fr/junior/perona/WP/Perona-these.pdf" hreflang="fr">sur ma page personnelle</a>.</p>Le jour d'aprèsurn:md5:eeff202e45ef0d3b685ad313c8ec941b2010-09-24T15:18:00+02:002010-09-26T10:58:43+02:00Mathieu P.Recherche<p><strong>J'ai donc soutenu ma thèse mercredi. Avant que tout cela ne devienne trop flou, je vais essayer de raconter comment cela s'est passé pour moi.</strong></p> <p>Pour tout dire, je n'étais pas très serein au dernier moment. Mes transparents étaient prêts mais mon texte ne l'était pas tout-à-fait mardi matin, alors que j'avais prévu de consacrer l'après-midi à la logistique du pot de thèse. J'étais en fait d'autant moins serein que certains membres du jury avaient reçu des convocations à un horaire erroné (10h00 au lieu de 14h00) et on dû déplacer des engagements pour moi. Du coup, je me suis demandé presque jusqu'au dernier moment si tout le monde serait là. De fait d'ailleurs, plusieurs membres n'avaient pas reçu non plus les pré-rapports. Leçon donc pour les doctorants : assurez-vous que ce genre de choses (confirmation de l'horaire, envoi des pré-rapports et autres pièces utiles) est fait en le faisant vous-même.</p>
<h3>Première étape : exposition des recherches</h3>
<p>C'est celle sur laquelle, rétrospectivement, j'ai le moins à dire. Ayant un jury nombreux, il fallait faire tenir cinq ans de recherches en vingt minutes. Comme on me l'a fait très justement remarquer, cette présentation n'est pas, normalement, destinée au jury. Il a lu la thèse et sait de quoi ça parle. Elle est plutôt destinée au public, c'est-à-dire souvent à la famille et aux amis qui ne sont pas des spécialistes. j'ai donc essayé de faire quelque chose d'assez accessible.</p>
<h3>Deuxième étape : les rapporteurs</h3>
<p>Normalement, pas de grande surprise là aussi : les rapporteurs ont déjà donné leur avis dans les pré-rapports et je savais à quoi m'attendre en termes de question. J'avais passé une part importante des dernières semaines à préparer des réponses. De manière non concertée, les deux rapporteurs avaient relevé les mêmes points forts et les mêmes faiblesses. Au cours des questions, plusieurs idées qui m'intéressent particulièrement ont émergé :</p>
<ul>
<li>Un rapporteur a relevé que le prix unique du livre rigidifiait les prix non seulement dans l'espace mais aussi dans le temps. Or, c'est un résultat de la littérature sur la propriété intellectuelle que baisser assez rapidement le prix d'un bien réduit considérablement les incitations au piratage, ce que ne permet pas le prix unique. C'est une dimension à laquelle je n'avais pas pensée et qui ajoute un argument de poids contre un prix unique du livre numérique calé sur celui du livre physique.</li>
<li>Avec le livre numérique, le piratage n'est pas la seule alternative à l'offre légale payante : la masse, énorme, des textes dans le domaine public va peut-être peser très lourdement sur les éditeurs. Les concurrents de Houellebecq ne seront plus seulement Nothomb, Lapeyre et consorts, mais Balzac, Marot, Zola, Hemingway, etc. À ce titre, l'accessibilité du domaine public pourrait avoir des conséquences d'importance sur l'offre littéraire elle-même.</li>
<li>La question de la mesure de la diversité est revenue plusieurs fois. Je dois admettre que si je trouve très intéressante la littérature sur la diversité, qui recouvre souvent un travail colossal de constitution des bases de données, je ne suis pas à l'aise avec l'exercice de construction des nomenclatures. Je ne me suis toutefois sans doute pas assez penché sur les papier d'organisation industrielle empirique, connaissant mieux ce qui s'est fait en économie de la culture sur le sujet.</li>
</ul>
<h3>Les examinateurs</h3>
<ul>
<li>On m'a fait remarquer une contradiction entre ce que je disais sur le prix unique du livre dans l'opuscule (ne très mauvais ni très désirable) et ce qui ressortait de mon modèle sur le marché du livre (où le prix unique améliore le bien-être social). La remarque éclaire les limites du premier des deux travaux. Dans mon modèle, le gain du prix unique est qu'il conduit à un appariement optimal entre les lecteurs et les titres. Ce résultat est tiré par des hypothèses assez fortes sur le comportement des libraires et je ne m'appuierais donc pas trop fortement dessus. Il souligne pourtant qu'il s'agit là d'une dimension qui échappe à la littérature empirique, faute de pouvoir mesure l'adéquation d'un produit au goût des lecteurs. Il faudrait disposer d'enquêtes de satisfaction détaillées, dont le maniement même est périlleux en général et dans le domaine culturel en particulier.</li>
<li>On m'a fait remarquer que si dans le discours le prix unique était destiné à sauver les libraires, il était en pratique un outil très puissant entre les mains des éditeurs, dimension que je n'avais que peu traitée. Il y aurait donc un travail complémentaire à faire pour comprendre comment cet instrument a pu agir sur les choix des éditeurs eux-mêmes et affecter la structure de l'édition et pas seulement de la vente de détail.</li>
<li>Plusieurs fois, on m'a demandé de prendre position sur une question précise (sur le prix unique du livre numérique, les vraies raisons du prix unique, l'évolution du secteur ou l'opportunité d'une plate-forme publique pour le livre numérique). J'en ai été assez surpris moi-même, bien qu'ayant effectivement des avis personnels sur ces différentes questions.</li>
<li>L'impact du numérique, dont je parle peu dans ma thèse, intéresse manifestement tout le monde (moi y compris). Cela va être un test intéressant de la capacité de la recherche économique à réagir rapidement à une modification profonde du secteur.</li>
</ul>
<p>De très nombreux commentaires étaient en fait des propositions motivantes de développement et d'extension de mes modèles, ce qui a fait de la soutenance un élément très productif scientifiquement. Cela m'a donné envie de me remettre à travailler certains éléments, en contraste avec la lassitude qui va avec la rédaction du manuscrit de thèse.</p>
<h3>Après la soutenance</h3>
<p>Tout est passé pour moi à toute vitesse (je n'avais plus eu cette impression depuis la journée de mon mariage, c'est dire). Il y a beaucoup de gens à qui on a envie de parler ou que je voulais remercier simplement pour avoir été là, ce jour-là et depuis de début de la thèse. J'en profite pour remercier aussi tous ceux qui ont pensé à moi.</p>
<p>Maintenant, il faut que je me remette en route. Heureusement, j'avais quelques projets entamés, d'autres m'ont été suggérés tandis que la soutenance m'a donné du grain à moudre concernant l'existant. J'espère aussi avoir un peu plus de temps pour alimenter ce blog.</p>Pilotage de la recherche : une illustration du problèmeurn:md5:849f4a3698942046bbf135d2fc9e0d5d2009-02-27T15:50:50+00:002009-02-27T15:50:50+00:00Mathieu P.Recherche<p><strong>Un lecteur de ce blog me signale par mail <a href="http://images.math.cnrs.fr/Piloter-la-politique-scientifique.html">ce billet</a> retranscrivant une lettre adressée à un chercheur pressenti pour faire partie d'un comité d'experts de pilotage de la recherche. La prose en est assez éclairante pour que le chercheur en question s'abstienne de commentaire. <em>Hat tip</em> au lecteur qui me l'a signalé (comme il est passé par mail, je m'abstiens de le nommer ici).</strong></p> <p>Je ne résiste cependant pas à l'envie d'ajouter mon grain de sel. Je dois avouer que je n'ai rien compris à la première lecture de la lettre, tant le jargon managérial y est dense. À la deuxième lecture, je me demande ce qui dans cette lettre, et dans les orientations de politique de recherche qu'elle sous-tend, relève de la naïveté (ou de la pure et simple ignorance du fonctionnement de la recherche) et de ce qui relève de l'aveuglement.</p>
<p>Le présupposé de la lettre me semble être qu'il existe des « défis » identifiables (et dûment identifiés par le comité idoine). En l'occurrence, le chercheur était contacté en relation avec le défi intitulé « le numérique, le calcul intensif et les mathématiques ». Je vois immédiatement plusieurs problèmes.</p>
<p>Le premier serait qu'il serait possible de mettre en évidence les enjeux principaux de la recherche actuelle dans le domaine choisi, en d'autres termes les programmes de recherche porteurs. C'est à mon sens ignorer deux choses. D'une part, l'ampleur des effets de mode dans la recherche, qui font que certains thèmes jugés porteurs peuvent s'essouffler assez vite. D'autre part, l'offre de recherche (entendre : le nombre et la qualité de chercheurs travaillant sur un thème) fait déjà l'objet d'une forme d'allocation par le marché. Un programme de recherche (je pense qu'il s'agit ici de ce que la lettre nomme improprement « défi ») prometteur attire rapidement thésards motivés et chercheurs à la recherche de nouveaux thèmes. De ce fait, peut-on vraiment croire qu'un pilotage, fût-il le fait de gens compétent, peut faire beaucoup mieux ? Personnellement, j'en doute.</p>
<p>Le second problème me semble résider dans l'intitulé du défi. Certes, il est bourré de mots-clef à même d'attirer l'attention du communicant de passage. Mais est-il scientifiquement pertinent ? Bien que cela ne soit pas mon domaine, j'en doute. La largeur des concepts utilisés (en particulier le fourre-tout <em>numérique</em>, qui ne veut en général rien dire de précis) m'incite à penser qu'il s'agit avant tout d'un habillage pour des programmes de recherche beaucoup plus précis que ce que l'intitulé laisse entendre. En fait, en y réfléchissant un peu, j'y vois une formulation maladroite de la manière dont on peut vouloir représenter la recherche en cryptographie. Mais alors, si tout cela s'adresse essentiellement aux chercheurs, pourquoi cet habit d'arlequin pour un domaine dont personne, je pense, ne conteste ni l'importance ni la pertinence ?</p>
<p>Il est donc au final possible que cette lettre soit malheureusement assez représentative des tares du pilotage de la recherche à la française : des thèmes de recherche parfaitement intéressants et légitimes sont proposés, passent à la moulinette de comités où dominent manifestement des personnes qui ne comprennent pas de quoi il s'agit, et qui produisent en sortie des documents qui non seulement ne parlent pas le langage des gens auxquels ils s'adressent, mais en plus rendent méconnaissables les propositions de départ. Ajouter à cela l'illusion que ce type de mécanisme peut faire significativement mieux en matière d'allocation des ressources que le marché académique, et vous avez la recette d'une usine à gaz à la française.</p>
<p>J'avais entendu plusieurs échos négatifs sur cette idée de pilotage. Maintenant, je comprends mieux pourquoi.</p>Ils ont les mêmes problèmes ailleurs...urn:md5:d896561a46f3643dbe2857b858e240b92009-02-20T12:46:41+00:002009-02-20T12:46:41+00:00Mathieu P.Recherche<p><strong>Je suis tombé par hasard sur <a href="http://www.economist.com/blogs/freeexchange/2009/02/its_hard_out_there_for_a_philo.cfm" hreflang="en">ce billet</a> du blog <a href="p://www.economist.com/blogs/freeexchange/" hreflang="en">Free Exchange</a> hébergé par <em>The Economist</em>. Le corps du billet est intéressant, et les commentaires montrent que l'incompréhension entre sciences et humanités n'est en rien une spécificité française.</strong></p> <p>L'argument essentiel du billet est intéressant : un futur jeune docteur en économie rencontre un futur jeune docteur en littérature française, et dit à ce dernier pour sa capacité à de dédier entièrement à son sujet en dépit des piètres perspectives d'emploi que son doctorat lui apporte. Ce qui lui vaut une remarque assez acerbe sur le thème du « si j'avais su... ». Ce qui donne l'occasion au l'auteur de s'interroger sur les raisons de l'excès chronique de docteurs par rapport au nombre de postes dans les humanités et sur le peu de reconnaissance apportée à une formation qui, à tout le moins, démontre les capacités analytiques, critiques et synthétiques de la personne. Bref, en peu de mots et sur un cas concret ce que j'essayais de dire dans <a href="http://www.leconomiste-notes.fr/dotclear/index.php?2007/12/05/80-que-font-les-humanites">un ancien billet</a>.</p>
<p>Les commentaires sont également intéressants, puisqu'on échappe pas à un certain dédain des humanités, voire une franche hostilité fondée sur un soupçon de crypto-marxisme. Contrairement aux commentaires des sites des journaux français cependant, les réfutations de ce genre de messages simplistes sont de bonne qualité.</p>Rendre des données anonymesurn:md5:e8f9baf880b8b7a1b3a9361ebfb4ac912006-08-24T12:33:14+00:002007-05-31T17:48:50+00:00Mathieu P.Recherche<p><strong><a href="http://guerby.org/blog/" hreflang="fr">Laurent Guerby</a> continuant régulièrement à râler contre l'absence de données publiques anonymisées, j'ai l'impression qu'il faut remettre quelques éléments en place sur ce que ce terme recouvre.</strong></p> <p>Reprenons le paragraphe légal que je citais dans mon <a href="http://leconomiste.free.fr/notes/index.php?2006/07/02/24-publications-et-confidentialite-des-donnees" hreflang="fr">précédent billet</a> :</p>
<blockquote><p>Il interdit, pendant une durée de cent ans, toute communication de données ayant trait aux faits et comportements d'ordre privé recueillies au moyen d'une enquête statistique. Les renseignements d'ordre économique ou financier ne peuvent être communiqués à quiconque pendant une durée de trente ans. La même loi interdit toute utilisation de ces informations à des fins de contrôle fiscal ou de répression économique.</p></blockquote>
<p>En pratique, cela veut dire qu'un jeu de données anonymisées doit garantir qu'aucune des personne enquêtées ne puisse être reconnue. Or, ces choses-là vont vite, très vite. Si on prend l'exemple de <a href="http://www.insee.fr/fr/nom_def_met/definitions/html/enquete-emploi.htm" hreflang="fr">l'enquête Emploi</a>, déjà cité, nous avons des variables géographiques assez fines. Imaginons une personne enquêtée dans un village de 300 habitants. Le simple fait de savoir qu'elle est mariée avec deux enfants et l'âge des enfants suffit à l'identifier. Pour anonymiser les données, il faut donc perdre de l'information, soit sur la localisation géographique, soit sur la structure familiale.</p>
<p>Maintenant, pour des données qui seraient en accès public, il faudrait s'assurer qu'aucun regroupement de variables ne permet ce type de manœuvres. Pour une enquête à 300 000 observations et plusieurs centaines de variables, je laisse aux matheux le soin d'évaluer le temps de calcul nécessaire pour la seule vérification, et l'ampleur de la perte d'information par rapport à la base de données initiale. On voit facilement le résultat : des données publiques inutilisables, et des données confidentielles accessibles aux personnes accréditées... soit la situation actuelle, moins le coût de production des données anonymisées. Contrairement à de que pense Laurent, en matière de statistiques économiques, la notion de "données brutes anonymisées" est une contradiction dans les termes, dans la mesure où l'anonymisation exige un traitement très lourd.</p>Publications et confidentialité des données.urn:md5:9a33c1e1daad46edc1a94571ae6092092006-07-02T18:05:57+00:002008-08-26T10:58:16+00:00Mathieu P.Recherche<p><strong>Laurent Guerby, <a href="http://guerby.org/blog/tb3.php?id=94">dans un article consacré à la publication en ligne </a>, parle de l'accès gratuit aux publications scientifiques. Sur un commentaire de Flaff se demandant pourquoi les économistes accepteraient un tel système, Laurent en remet une couche sur la difficulté d'accès aux données économiques. Au vu de leurs arguments, quelques précisions ne sont pas inutiles.</strong></p> <p><strong>De l'accès aux articles</strong></p>
<p>Le monde de la publication économique a vu récemment apparaître un modèle de diffusion gratuite, avec <a href="http://www.econtheory.org" hreflang="fr">Theoretical Economics</a>. Cette expérience est intéressante à trois titres : le comité éditorial est fondé de poids lourds du domaine (donc la garantie d'un <em>peer review</em> de qualité), les délais de publication sont raisonnables (75$ par article), et la licence <a href="http://www.econtheory.org/copyright.php" hreflang="en">adoptée</a> est familière aux habitués du genre : la <a href="http://creativecommons.org/licenses/by-nc/2.5/" hreflang="en">cc-by-nc</a> (droit de reproduction et de modification, sous réserve de citer l'auteur original et d'utilisation non-commerciale).</p>
<p>Pourquoi ces économistes se sont-ils lancés dans une telle démarche ? Un journal académique classique fournit deux services à ses lecteurs, la sélection des articles et leur diffusion. L'intérêt du second de ses services a vu son intérêt décroître considérablement avec la possibilité de mettre en ligne les articles, pratique très générale en économie sous la forme des <em>working papers</em>. Le premier service est en revanche beaucoup moins aisément rempaçable, d'autant plus qu'il y a d'importantes rentes de situation : un journal reconnu (comme le <a href="http://www.nyu.edu/jet/" hreflang="en">JET</a>) peut faire appel aux meilleurs spécialistes pour évaluer les articles proposés, entretenant sa réputation d'excellence. D'où les rentes très importantes constatées dans ce domaine.</p>
<p>Quelle est la vision qu'en a l'économiste lambda ? Pour lui, la rente est peu importante, puisque l'abonnement aux différents journaux est payée par sa structure de recherche, et mutualisé entre différents chercheurs. Il faut alors voir les coûts comme, côté demande, la difficulté d'accéder à des articles récents de qualité d'une part, et la longueur de la procédure d'évaluation de ses propres articles. Côté offre, le coût est essentiellement le temps dédié à l'évaluation des articles par les membres du comité éditorial. La variable d'intérêt est donc essentiellement de délai de publication. Or, les délais de publication dans les revues classiques se sont considérablement allongés dans les denières années, pour dépasser un an et demi pour les plus grands journaux.</p>
<p>Dernier point, pourquoi cette initiative vient-elle du domaine de la théorie économique ? Après avoir été un peu partout le domaine-phare de l'économie, l'économie théorique est actuellement en perte de vitesse (en nombre de chercheurs et de thèses) par rapport à des démarches plus empiriques ou mixtes. De ce fait, il devient d'autant plus important de publier pour les chercheurs dans ce domaine, et de diffuser largement leur publication afin de défendre l'intérêt du domaine.</p>
<p><strong>Des données</strong></p>
<p>Une explication concurrente à mon dernier point serait que l'accès libre aux travaux empiriques ne serait intéressante que si les données elles aussi étaient en lmibre accès, ce qu'elles ne sont pas. Machiavélisme ou paresse des économistes ? Pas autant que Laurent ne le laisse entendre.</p>
<p>En effet, le premier engagement que prend un empiriste quand il reçoit des données est de respecter le <a href="http://www.insee.fr/Fr/a_propos/connaitre/secret_stat.htm" hreflang="fr">secret statistique</a> :</p>
<blockquote><p>Il interdit, pendant une durée de cent ans, toute communication de données ayant trait aux faits et comportements d'ordre privé recueillies au moyen d'une enquête statistique. Les renseignements d'ordre économique ou financier ne peuvent être communiqués à quiconque pendant une durée de trente ans. La même loi interdit toute utilisation de ces informations à des fins de contrôle fiscal ou de répression économique.</p></blockquote>
<p>De même, des provisions complémentaires protègent la vie privée des enquêtés. Ainsi, même en manipulant une enquête très standard comme <a href="http://www.insee.fr/fr/nom_def_met/definitions/html/enquete-emploi.htm" hreflang="fr">l'enquête Emploi</a>, on peut facilement violer ces provisions. Dans un travail récent, j'ai dû regrouper deux régions, car l'une des deux ne comprenait que trois observations intéressantes, et publier ces trois observations aurait permis d'identifier la personne enquêtée. De ce fait, les données microéconomiques doivent être soumises à des procédures de signature d'engagement du respect de ces règles, et on comprend que l'INSEE ait autre chose à faire que la chasse aux contrevenants.</p>
<p>Pourquoi de telles règles ? Le respect de la vie privée est une raison. Mais une autre est plus puissante encore : ces règles permettent d'obtenir des déclaration plus honnêtes de la part des enquêtées. Comment en effet obtenir des réponses sincères sur des sujets sensibles si le premier venu peut obtenir les résultats de l'enquête et divulguer sur son voisin des informations que ce dernier souhaiterait garder privées ? Il ne suffit pas d'anonymiser les réponses : l'âge, le sexe, l'occupation professionnelle et une variable de localisation géographique un peu fine peuvent suffire à qui connaît la personne de l'identifier avec certitude, surtout ci celle-ci n'a pas fait mystère du fait qu'elle avait été enquêtée.</p>
<p>De même, les données de part des ventes, de système tarifaire ou d'investissement des entreprises constituent des variables stratégiques dans leurs relations avec leurs concurrents. Inutile d'espérer obtenir le moindre chiffre si le service compétent du concurrent peut y avoir aisément accès.</p>
<p>Ainsi, si les économistes ne publient pas leurs données comme le font les astronomes, ces que ces données ne sont pas neutres pour les agents concernés, comme peut l'être, par exemple, la composition de l'atmosphère de Vénus. Limiter leur diffusion n'est ainsi pas une barrière à l'entrée, mais la condition d'obtention de données d'une qualité minimale.</p>Où sont les données ?urn:md5:4bf1abb8e29dbccecc312917888737b42006-06-02T16:57:32+00:002007-05-31T17:40:53+00:00Mathieu P.Recherche<p><strong>Régulièrement, j'ai entendu <a href="http://guerby.org/blog/index.php/" hreflang="fr">Lauren Guerby</a> regretter que les données sur lesquelles travaillent les économistes ne soient pas largement disponibles. Etant moi-même confronté à ce genre de problèmes, voici quelques éléments d'explication quant à la rareté (relative) des données économiques.</strong></p> <p>Rares, les données économiques ? Pourtant, me direz-vous, les journaux en regorgent : il suffit de voir l'excitation face à la moindre variation du taux de chômage ou du PIB, ou encore les pages économiques du premier quotidien venu. Pourtant, force est de constater que les chiffres les plus élémentaires (PIB de la France, budget de l'État, au hasard) sont très mal connues. Trop de chiffres, et surtout une mauvaise utilisation des chiffres, tue les chiffres.</p>
<p>Cependant, on pourrait s'attendre à ce que cette restriction tombe dès qu'on s'approche du domaine de la recherche. Que nenni ! Très peu d'économistes publient, avec leurs articles, les bases de données qui leur ont servi. Pourquoi ? D'une part, il y a un effet d'opportunité interne. Ils ont investi beaucoup de temps dans la construction de ces données, et le seul moyen de rentabiliser ce temps est d'être les seuls à publier sur la base des données en question. Evidemment, cela conduit à des controverses sans fin quand les calculs sont effectués sur des jeux de données subtilement différents. Les données se heurtent donc au problème de tous les biens dont le coût de production initial est très élevé, (enquête, nettoyage,...) mais dont le coût marginal (copier la base sur un autre ordinateur) est très faible.</p>
<p>Une solution connue à ce problème est d'en subventionner la production. On n'a d'ailleurs pas attendu ce billet pour y penser : c'est le rôle de l'INSEE en France. Malheureusement, l'INSEE a déjà fort à faire avec son propre mandat, et à autre chose à faire que d'examiner les <em>desiderata</em> de centaines de demandeurs d'enquête avec telle-ou-telle-question-dedans. Et on ne parle pas des pauvres thésardes en économie du développement qui doivent mettre sur pied une enquête dans un pays africain, contre vents, marées et coopération aléatoire des autorités du pays en question. On comprend alors que seuls les auteurs de l'enquête ou leurs co-auteurs soient autorisés à publier des articles fondés sur ces données. Compréhensible, certes, mais efficace...</p>
<p>Dans le cas français, beaucoup de chiffres sont effectivement disponibles <a href="http://www.insee.fr/fr/home/home_page.asp" hreflang="fr">sur le site de l'INSEE</a>. L'accès aux bases complètes, cependant, est réservé aux chercheurs, qui passent par des institutions comme le <a href="http://www.cmh.acsdm2.ens.fr/enquetes.php" hreflang="fr">Centre Maurice Halbwachs</a> ou le <a href="http://www.centre.quetelet.cnrs.fr/" hreflang="fr">Centre Quételet</a>. Pourquoi restreindre l'accès aux chercheurs ? La réponse est assez simple : toute donnée économique peut être considérée par sensible pour quelqu'un. Du coup, plutôt que de devoir se battre pied à pied contre tous les usages néfastes (par falsification des résultats ou des données elles-mêmes, par méconnaissance de leurs limites ou de celles des méthodes d'analyse de données), les institutions de production préfèrent en restreindre l'accès à des personnes ayant <em>a priori</em> les compétences nécessaires. Une simple application de la théorie du signal vous dit alors qu'il est rationnel de restreindre l'accès aux chercheurs, au détriment certes des dilettantes, mais aussi des illuminés en tous genres.</p>
<p>Il n'en reste pas moins que même pour un chercheur, l'accès aux données françaises est tout sauf facile. En effet, l'impératif d'anonymat plus que le poids des bases empêche souvent d'utiliser le fantastique gisement de données que représentent le recensement, la base SIRENE ou les DADS. Dès qu'on s'intéresse à des variables plus fines, au hasard les ventes de disques en France ou le nombre de téléphones mobiles par région, on entre dans des domaines considérés comme vitaux parmi les acteurs des secteurs considérés, qui regardent toujours avec méfiance les chercheurs. Du coup, il existe en France une masse considérable de données non exploitées, parce que les entreprises qui en disposent n'y voient pas l'intérêt, voient au contraire l'usage que pourrait en avoir leurs concurrents. À un niveau plus élevé, cela pèse même sur la qualité des données disponibles. Ainsi, en France, les chiffres de ventes de livres publiés par le Ministère de la Culture sont issus d'un sondage du Centre National de l'édition, qui ne concerne que 400 maisons sur les 3000 recensés par l'INSEE. Evidemment, ces données sont communiquées à un niveau très agrégé. Sinon, on pourrait aisément savoir quel est l'impact de l'ouverture d'une FNAC sur la vente de livres et l'activité des libraires dans une ville.</p>
<p>Cette situation n'est pas un exemple isolé : l'intérêt pour la production de données a crût bien plus vite que l'intérêt pour ce que disent ces données. C'est une chance pour les futurs économistes, mais aussi excessivement frustrant pour ceux qui, actuellement, savent qu'existent toutes ces belles bases qui leur ouvriraient un chemin vers le Graal (pardon, un article dans une revue internationale), et que personne ne s'y intéresse, sauf pour leur en interdire l'accès.</p>