Actualité - 11 septembre 2020

Le projet Calfa.fr : des études arméniennes aux humanités numériques

Bibliothèque universitaire des langues et civilisations (BULAC)
Découpage de séquences de caractères manuscrits pour l’entraînement de l’OCR | © calfa.fr
La BULAC est un équipement au service de l'ensemble des chercheurs en études aréales. Elle est membre associé de CollEx-Persée.

Alliant étude de l’arménien classique et ingénierie en intelligence artificielle, le projet Calfa.fr se situe au croisement d’un projet de recherche et de l’entrepreneuriat étudiant. Animée par un groupe d’étudiants philologues ou informaticiens passionnés par les études arméniennes, le startup a conçu un moteur de reconnaissance optique des caractères pour numériser le dictionnaire de référence de l’arménien classique, le Calfa. Pour pousser les limites de l’algorithme, le moteur a ensuite été entraîné sur des écritures manuscrites, classiques puis modernes, donc de plus en plus hétérogènes. Ces dernières ont été sélectionnées avec soin auprès d’un réseau de bibliothèques partenaires en France et à l’étranger qui les ont numérisées : bibliothèque Nubar, BULAC, IRHT et Matenadaran, l’institut des manuscrits à Erevan.

Le collectif propose ainsi une première plate-forme de traitement des écritures manuscrits dont le taux de reconnaissance dépasse les 95%.

Cette initiative présente une première avancée pour les études arméniennes, peu dotées en outils numériques et, a fortiori, d’instruments de numérisation enrichie. Une plate-forme collaborative est ainsi ouverte pour partager les résultats de ces essais et permettre une annotation collaborative de sources arméniennes :  https://vision.calfa.fr/

Le portail a été présenté en octobre 2019 dans le cadre du colloque Digital Armenian organisé par l’INALCO. Il a reçu en novembre le prix 2019 Télécoms Innovations, “ Accès à la culture et au patrimoine par le numérique”

La technologie est également ouverte à d’autres systèmes d’écritures. Le partenariat de fourniture de documents établi avec la BULAC implique l’organisation d’un hackaton pour tester les performances du moteur sur d’autres écritures non latines. Un premier essai de prise en charge de manuscrits arabes sera mené en 2020.

Pour en savoir plus :

Site du projet Calfa.fr > https://calfa.fr

Présentation du partenariat Calfa/Bulac > https://www.bulac.fr/espace-recherche/la-bulac-et-la-recherche/

Une actualité ou un événement à partager avec nous ?

Proposez vos actualités et événements afin qu'ils soient publiés sur le site du CollEx-Persée