Actualité - 23 octobre 2020

#FocusProjet : Popp, projet d’océrisation des recensements de la population parisienne

Grand équipement documentaire du Campus Condorcet
Paris buildings with clouds | © Photo by Nil Castellví on Unsplash
POPP - Océriser les recensements de la population parisienne de l’entre-deux-guerres - est un des projets lauréats de l’appel à projets CollEx-Persée 2019-2020. Coup de zoom.

Porté par le Grand équipement documentaire du Campus Condorcet et par le laboratoire de recherche historique Rhône-Alpes (LARHRA – UMR 5190), en association avec le Laboratoire d’Informatique, de Traitement de l’Information et des Systèmes de Rouen (LITIS – EA 4108) et la très grande infrastructure de recherche PROGEDO, le projet Popp (projet d’océrisation des recensements de la population parisienne) a été lauréat de l’appel à projets CollEx-Persée 2019-2020.

Ce projet vise à élaborer une vaste base de données (12 millions d’individus) à partir des recensements nominatifs de Paris de 1926, 1931, 1936 et 1946 qui sont les seuls recensements de la population parisienne existant avant la fin du XXe siècle. Ces recensements sont déjà numérisés et en ligne sur le site des archives de Paris mais il s’agit ici d’océriser ces données pour permettre l’exploitation statistique de ces documents particulièrement riches et d’offrir l’opportunité d’un pas important dans la connaissance de la population urbaine européenne jusqu’alors très peu étudiée. Ce travail permettra également à chacun de retrouver ses ancêtres grâce à la recherche nominative. Plus globalement, il offrira l’opportunité d’un pas important dans la connaissance de la population urbaine européenne jusqu’alors très peu étudiée.

1.    Popp : au-delà d’un intérêt scientifique, un intérêt méthodologique

Outre son intérêt pour la connaissance scientifique, ce projet présente également une avancée importante du point de vue méthodologique. En effet, la création d’une telle base de données nécessite l’utilisation de techniques de reconnaissance optique de caractère.

Travaillant actuellement sur l’Equipex D-FIH, l’équipe du laboratoire LITIS a mis au point des logiciels de lecture optique de plus en plus performants pour extraire des informations boursières (nom d’entreprise, noms de personnes, des montants financiers, des dates …) imprimées dans les annuaires financiers historiques et les cotations boursières afin de constituer des bases de données boursières et financières historiques.

Dans cette continuité, le projet Popp constitue un véritable défi puisque les recensements de population ne sont pas tapuscrits comme les données de la bourse, mais remplis à la main.

Les premiers essais sont cependant concluants, d’une part parce que les recherches de Sandra Brée, démographe-historienne (CNRS, LARHRA) et porteuse du projet, sur la population parisienne lui ont permis de créer des banques de données (professions, noms, lieux) qui permettront de paramétrer les algorithmes de détection optique, et d’autre part parce que l’équipe de Thierry Paquet (responsable de la partie informatique du projet, directeur du LITIS) dispose également d’une expertise en reconnaissance d’écriture manuscrite, et dans l’implémentation de chaînes de traitement et de production de données structurées telles que des archives de presse.

Concrètement, une fois la lecture optique des caractères effectués, les données seront compilées dans un site internet de travail dans lequel pourront être modifiées manuellement les informations reconnues par la machine (grâce à une plateforme web collaborative). La machine sera ensuite régulièrement « alimentée » par de nouveaux termes afin d’enrichir de plus en plus son vocabulaire, et traiter d’autres parties du corpus. Une fois que ce long travail sera terminé, une base de données sera créée pour être lisible sous les logiciels statistiques.

2.    Popp : un large public visé

En premier lieu, la communauté de chercheurs en sciences sociales qui utilise des méthodes quantitatives pourra travailler sur une base de données déjà constituée sans le coût de sa construction pour répondre à un très grand nombre de problématiques différentes en démographie historique, histoire de la famille, histoire sociale, histoire économique, histoire des professions, histoire du genre et bien d’autres. Le colloque et l’ouvrage tirés de ces travaux seront particulièrement cohérents grâce à l’analyse de cette base commune, ce qui est rare en histoire.

En deuxième lieu, les bibliothèques et l’ensemble de la communauté scientifique qui souhaitent aujourd’hui indexer des données tabulaires issues de publications papier pourront profiter de ces avancées techniques. Le Grand équipement documentaire du Campus Condorcet qui conserve de nombreux documents statistiques anciens, provenant du service de documentation de l’INED, sera ainsi mis en relation avec l’équipe de LITIS et pourra rapidement monter en compétence sur les dernières techniques de pointe en la matière. Les techniques utilisées pourront donc être réutilisées dans le cadre d’autres projets d’exploitation et mises en valeur de numérisations.

Enfin, le projet vise un public bien plus large puisque l’objectif final est d’ouvrir la base de données au grand public afin que chacun puisse bénéficier de la base de données parisiennes, qui sera particulièrement utile aux généalogistes professionnels et amateurs. Ainsi, si dans un premier temps la base pourra être distribuée par l’Adisp (Progedo) aux chercheurs la demandant, l’idée est ensuite de mettre à disposition la base à tous en créant un site d’hébergement accessible qui sera notamment signalé sur le site web des archives de Paris.

3.    De fructueuses synergies scientifiques

Au niveau scientifique, l’analyse quantitative et statistique des populations est rendue particulièrement difficile en histoire en raison du manque de bases de données. Pour parvenir à de telles analyses, les chercheurs sont souvent obligés de travailler sur des zones géographiques et temporelles très restreintes en raison de l’ampleur des données à recueillir. De plus, comme l’explique le philosophe Ian Hacking, la période de l’entre-deux-guerres constitue donc une sorte de « trou d’air » statistique entre « l’avalanche » du XIXe siècle – qui dure jusqu’en 1914 – et le développement de la statistique « contemporaine » avec l’Insee. Dans cette période d’une quarantaine d’années, les données sont rares, les séries statistiques interrompues et les travaux souvent monographiques.

Ce projet est donc essentiel pour compléter notre connaissance de l’évolution économique, sociale et démographique de la France – notamment de sa population urbaine – sur la longue durée en s’appuyant sur des données uniques qui permettront de faire le lien entre deux périodes abondantes en information.

La création d’une base de données à partir des recensements de Paris offre l’opportunité d’un pas important dans la connaissance de la population urbaine européenne jusqu’alors très peu étudiée (en particulier avec des données à cette échelle). Les données disponibles permettront d’analyser des comportements démographiques de la population, mais également la répartition spatiale des individus, selon leur lieu de naissance par exemple. De nombreuses études seront ainsi rendues possibles : les chercheuses et chercheurs pourront se concentrer sur des populations particulières (certaines professions par exemple), sur les noms de famille, les prénoms… Il sera également possible, ce qui est particulièrement novateur, de suivre des familles dans leurs déménagements entre 1926 et 1946.

Ainsi, grâce à cette vaste base de données immédiatement exploitable, le projet Popp ouvrira la voie à de nombreuses contributions sur des champs scientifiques variés, de la démographie à l’histoire, en passant par la sociologie ou l’économie.

Sandra Brée

Chargée de recherche en démographie historique au CNRS au LARHRA

François Merveille

Responsable de la coopération – Campus Condorcet – Grand Équipement Documentaire

 

Voir l’article source depuis le carnet Hypothèses du GED > ici

Voir le blog du projet > ici

Voir la page-projet > ici

#FocusProjet

Une actualité ou un événement à partager avec nous ?

Proposez vos actualités et événements afin qu'ils soient publiés sur le site du CollEx-Persée