Dans le cadre du projet de démographie historique, nous annonçons la mise à disposition du modèle Qwen2.5-VL-7B-DAI-CReTDHI-IndexCardsNested-KIE. Ce modèle de vision-langage (VLM) a été spécifiquement entraîné pour l’extraction d’informations structurées à partir des fiches de dépouillement de la ville de Tours.

Un modèle de pointe pour les documents structurés

Le modèle repose sur l’architecture Qwen2.5-VL, une évolution majeure des modèles multimodaux. Contrairement aux systèmes d’OCR traditionnels qui se contentent de transcrire du texte, ce modèle est capable de comprendre simultanément la graphie manuscrite et la structure visuelle du document.

L’entraînement (fine-tuning) a été réalisé sur le dataset DAI-CReTDHI-IndexCards-KIE, permettant au modèle de maîtriser :

Sur le plan de la performance, le modèle atteint un taux d’erreur caractère (CER) de 5,48 % et parvient à une reconnaissance parfaitement exacte de 84,86 % des champs extraits.

Voici un exemple de prédiction :

<root>
    <Décès>
        <Défunt>
            <Nom>Choisnard</Nom>
            <Prénom>Marie Madelaine</Prénom>
            <Sexe>F</Sexe>
            <DateDeNaissance>23 juillet 1753</DateDeNaissance>
            <LieuDeNaissance>Ambroise (Indre-et-Loire)</LieuDeNaissance>
            <Profession>journalière</Profession>
            <Statut>veuf(ve)</Statut>
        </Défunt>
        <Conjoint>
            <Nom>Rocheriou</Nom>
            <Prénom>Pierre</Prénom>
            <Statut>décédé(e)</Statut>
        </Conjoint>
        <Père>
            <Nom>Choisnard</Nom>
            <Prénom>Michel</Prénom>
        </Père>
        <Mère>
            <Nom>Dubeuf</Nom>
            <Prénom>Louise</Prénom>
        </Mère>
    </Décès>
    <Date>
        <Année>1826</Année>
        <Mois>septembre</Mois>
        <Jour>5</Jour>
    </Date>
</root>

Engagement pour la Science Ouverte

La publication de ce modèle sur Hugging Face s’inscrit dans la volonté du projet de fournir des outils réutilisables par la communauté des humanités numériques et les services d’archives. Il permet d’automatiser le dépouillement de fonds massifs qui, jusqu’alors, nécessitaient un investissement humain colossal.

Le modèle, ses poids et ses instructions d’utilisation sont librement accessibles : https://huggingface.co/Teklia/Qwen2.5-VL-7B-DAI-CReTDHI-IndexCardsNested-KIE