Nous avons eu l’occasion de présenter notre article « Text Line Detection in Historical Index Tables: Evaluations on a New French PArish REcord Survey Dataset (PARES) » lors de la conférence ICADL 2023 en Octobre 2023. Ce travail a été réalisé au cours de l’avant-projet, dans le cadre du programme France Relance.

Résumé : Dans cet article, nous abordons le défi de l’analyse d’images de documents appliquée aux tables d’index historiques contenant des écritures manuscrites. Les études démographiques peuvent tirer parti de l’analyse automatique de tels documents pour mieux comprendre les mouvements de population. Afin d’évaluer l’efficacité des outils d’analyse de mise en page automatique, nous présentons le jeu de données PARES, qui comprend 250 images annotées de tables d’index provenant des archives françaises. Nous testons également plusieurs algorithmes de pointe (U-FCN, R-CNN et Transformers) pour détecter les lignes dans ces tables d’index, une étape essentielle pour la reconnaissance de texte manuscrit (HTR). Nos résultats montrent que l’extraction de lignes de texte fonctionne particulièrement bien avec le modèle U-FCN, tout en soulignant que les architectures de type Transformer sont prometteuses pour une détection précise et efficace des lignes de texte dans ce type de documents historiques. Cette avancée constitue une première étape encourageante vers une architecture basée sur les Transformers, capable de détecter à la fois la structure (mise en page) et le contenu. En complément de cet article et du jeu de données PARES (250 images de tables d’index historiques), nous publions également les masques de segmentation, le code utilisé pour l’entraînement et les tests, ainsi que les modèles eux-mêmes.
Mots-clés : Jeu de données, Documents historiques, Analyse d’image de document, Segmentation de documents, Apprentissage profond
Citation : Bernard, G., Wall, C., Boillet, M., Coustaty, M., Kermorvant, C., Doucet, A. (2023). Text Line Detection in Historical Index Tables: Evaluations on a New French PArish REcord Survey Dataset (PARES). In: Goh, D.H., Chen, SJ., Tuarob, S. (eds) Leveraging Generative Intelligence in Digital Libraries: Towards Human-Machine Collaboration. ICADL 2023. Lecture Notes in Computer Science, vol 14457. Springer, Singapore.