La démographie historique mobilise un large éventail de sources (recensements, registres matricules, archives notariales ou judiciaires) pour étudier et comprendre l’évolution des populations sur le temps long. Ces dernières années, des projets tels que EXO-POPP et SOCFACE ont démontré l’efficacité des modèles d’apprentissage profond pour traiter les recensements de la période 1836-1936. Toutefois, l’application de ces méthodes à des sources plus anciennes présente des difficultés spécifiques.
Les enjeux techniques des registres paroissiaux
Les registres paroissiaux occupent à cet égard une place singulière. En tant que principale source de données démographiques individuelles antérieures à la Révolution française, ils constituent une ressource indispensable mais complexe à traiter.

Leur exploitation automatisée se heurte à trois obstacles majeurs :
- L’évolution scripturale : plusieurs siècles de variations des styles d’écriture manuelle ;
- L’instabilité orthographique : une absence de normalisation des patronymes et des lieux ;
- L’état de conservation : des dégradations physiques (taches, encre traversante) liées à l’ancienneté des supports.
Les modèles de reconnaissance automatique de texte (ATR) actuels, souvent entraînés sur des corpus plus récents et normalisés, peinent à s’adapter à la forte variabilité de ces matériaux.
Le jeu de données DAI-CReTDHI-Record-ATR
Le jeu de données DAI-CReTDHI-Record-ATR a été constitué afin de répondre à ces enjeux. Il comprend 7 720 registres paroissiaux et d’état civil manuscrits issus de trois fonds d’archives départementales : les Ardennes, l’Indre-et-Loire et la Charente-Maritime. Le corpus couvre une période allant du XVIe au XIXe siècle.
La constitution de ce jeu de données a reposé sur deux phases d’annotations expertes réalisées par des historiens sur l’outil d’annotation Callico :
1. Détection des actes : la délimitation précise du contour de chaque acte sur les images

2. Transcription des actes : la saisie textuelle du contenu de chaque acte ainsi délimité.

Accès aux données et Science Ouverte
Le jeu de données est librement accessible sur la plateforme Hugging Face : https://huggingface.co/datasets/Teklia/DAI-CReTDHI-RecordGold-ATR.
L’exploitation de ce jeu de données répond à plusieurs objectifs stratégiques pour la recherche en humanités numériques.
- Benchmarking : évaluer les performances des modèles d’ATR actuels et identifier leurs limites sur les sources anciennes ;
- Adaptation des modèles : entraîner et optimiser de nouveaux modèles capables de traiter les graphies complexes de l’époque moderne ;
- Valorisation : publier ces modèles en open source afin d’offrir à la communauté scientifique et aux généalogistes des outils performants pour l’indexation automatisée.