Olivier Morillot présente ses travaux sur la reconnaissance de textes manuscrits

Photo_olivier_morillot(2/4) Nous poursuivons notre série de présentation des quatre thèses lauréates du programme Futur et Ruptures de l’Institut Mines-Télécom, avec Olivier Morillot. Il expose ses travaux, menés à Télécom ParisTech, sur la reconnaissance de l’écriture manuscrite, un champ de recherche relevant du domaine de la reconnaissance des formes et qui a connu un regain d’intérêt ces vingt dernières années. Son objectif principal est de transcrire l’image de documents manuscrits (obtenue par numérisation), quel que soit le style de l’écriture. Entreprises et administrations, en particulier, sont intéressées par le traitement de volumes importants de courriers manuscrits qu’elles reçoivent. Les bibliothèques, quant à elles, voudraient effectuer des recherches en texte intégral dans les documents historiques.

Titre de la thèse
Reconnaissance de textes manuscrits par Modèles de Markov Cachés et Réseaux de Neurones Récurrents : application à l’écriture latine et arabe

Résumé
Cette thèse présente deux méthodes de reconnaissance par apprentissage automatique fondées respectivement sur les Modèles de Markov Cachés (MMC) et les Réseaux de Neurones Récurrents (RNR) ou Recurrent Neural Networks (RNN). Les MMC sont largement employés en la matière car ces modèles ne sont pas sensibles aux distorsions géométriques non linéaires, très fréquentes s’agissant d’écriture manuscrite. Les caractères sont modélisés en une suite d’états, et les mots en une concaténation de ces états. Les RNR ont été récemment appliqués avec succès à la reconnaissance de l’écriture manuscrite. Par rapport aux réseaux de neurones conventionnels, les RNR introduisent un lien récurrent pour conserver l’information dans la durée.
Des étapes de prétraitement sont également cruciales pour restreindre la variabilité de l’écriture manuscrite. Les deux systèmes de reconnaissance d’écriture manuscrite sont entraînés sur des échantillons étiquetés. L’entraînement est effectué sur des caractéristiques extraites plutôt que sur les valeurs des pixels. Il y a peu de temps encore, la reconnaissance de l’écriture manuscrite était axée sur des mots isolés. Notre approche traite directement les lignes de texte, sans les segmenter en mots, et utilise des modèles de langage statistiques pour prendre en compte les séquences de mots les plus vraisemblables.
Nous avons travaillé à différents niveaux du système de reconnaissance : nous avons tout d’abord élaboré une approche de prétraitement spécifique adaptée à la ligne. Nous avons notamment proposé un nettoyage et la correction locale d’inclinaison pour les lignes de texte. Ensuite, nous avons travaillé à l’optimisation d’un modèle de langage adapté à la reconnaissance des courriers. Nous avons montré que les petits modèles de langage peuvent être très efficaces pour une tâche précise. Nous avons ensuite proposé deux systèmes de reconnaissance de pointe basés sur des MMC contextuels et des RNR bidirectionnels à mémoire – BLSTM (Bidirectional Long Short-Term Memory). Nous optimisons nos systèmes afin de fournir une comparaison de ces deux approches. Nos systèmes sont évalués sur l’écriture cursive arabe et latine et ont été présentés à deux concours internationaux de reconnaissance d’écriture manuscrite. Enfin, nous présentons une stratégie pour la reconnaissance de certaines chaînes de caractères hors vocabulaire, comme axe de travail futur.

Lire les 3 autres billets présentant les thèses lauréates du programme Futur et Ruptures
(1/4) Amine Ben Salem présente ses travaux sur les nanofils photoniques
(3/4) Anaïs Vergne présente ses travaux sur la topologie algébrique appliquée aux réseaux de capteurs
(4/4) Xuran Zhao présente ses travaux sur la réduction de dimensionnalité multivue pour la biométrie multimodale

En savoir + sur le programme Futur et Ruptures