Le corpus portant sur la ville de Tours se compose de plus de 400 000 fiches issues du dépouillement (quasi-) exhaustif des registres de baptêmes, mariages et sépultures, couvrant à la fois la période de l’Ancien Régime et celle de l’état civil. Ce dépouillement manuel a été réalisé par les Archives Municipales de Tours, et est une ressource précieuse dans le cadre du projet DAI-CReTDHI.
Les fiches de Tours : une structure par couleur
Entre novembre 2024 et mars 2025, le projet s’est concentré sur le traitement des fiches produites par les archivistes lors des dépouillements manuels successifs. Ces fiches utilisent un code couleur spécifique pour identifier la nature de l’acte :
- Mariages : rose, mauve, violet.
- Baptêmes / Naissances : jaune, orange, blanc.
- Décès / Sépultures : gris, marron, bleu.
- Église réformée : rouge.




Un référentiel d’annotation de haute précision
La collaboration entre historiens et informaticiens a permis d’établir un référentiel de 45 étiquettes pour l’extraction d’informations. Ce système hiérarchisé permet de distinguer précisément :
- La temporalité et la localisation : dates précises, paroisses, diocèses.
- Les individus et leurs rôles : nouveau-nés, conjoints, parents, témoins, officiants.
- Les caractéristiques sociales : professions, âges, états matrimoniaux, statuts vitaux et observations.
Accès aux données et Science Ouverte
Un échantillon de 500 fiches a été sélectionné et annoté selon ce référentiel. Le jeu de données résultant de ces phases d’annotation, DAI-CReTDHI-IndexCards-KIE, est désormais disponible. Il permet l’entraînement de modèles capables de lire automatiquement et d’extraire les informations essentielles de l’ensemble du corpus tourangeau.
Conformément aux engagements du projet, ce dataset est partagé en libre accès sur Hugging Face : https://huggingface.co/datasets/Teklia/DAI-CReTDHI-IndexCards-KIE