Le corpus portant sur la ville de Tours se compose de plus de 400 000 fiches issues du dépouillement (quasi-) exhaustif des registres de baptêmes, mariages et sépultures, couvrant à la fois la période de l’Ancien Régime et celle de l’état civil. Ce dépouillement manuel a été réalisé par les Archives Municipales de Tours, et est une ressource précieuse dans le cadre du projet DAI-CReTDHI.

Les fiches de Tours : une structure par couleur

Entre novembre 2024 et mars 2025, le projet s’est concentré sur le traitement des fiches produites par les archivistes lors des dépouillements manuels successifs. Ces fiches utilisent un code couleur spécifique pour identifier la nature de l’acte :

Un référentiel d’annotation de haute précision

La collaboration entre historiens et informaticiens a permis d’établir un référentiel de 45 étiquettes pour l’extraction d’informations. Ce système hiérarchisé permet de distinguer précisément :

Accès aux données et Science Ouverte

Un échantillon de 500 fiches a été sélectionné et annoté selon ce référentiel. Le jeu de données résultant de ces phases d’annotation, DAI-CReTDHI-IndexCards-KIE, est désormais disponible. Il permet l’entraînement de modèles capables de lire automatiquement et d’extraire les informations essentielles de l’ensemble du corpus tourangeau.

Conformément aux engagements du projet, ce dataset est partagé en libre accès sur Hugging Face : https://huggingface.co/datasets/Teklia/DAI-CReTDHI-IndexCards-KIE