Le Journal de Rouen à l’ère numérique

Vous pouvez désormais accéder à une version numérique innovante du Journal de Rouen sur notre démonstrateur :

http://plair.univ-rouen.fr

Nous nous sommes associés au laboratoire LITIS de l’Université de Rouen afin de vous proposer cet outil offrant de nouvelles fonctionnalités comme :

• La transcription du texte par reconnaissance optique de caractère
• Le découpage automatique en articles
• La recherche plein texte dans ces articles (titre, contenu)
• La correction collaborative du texte mal transcrit
• La possibilité d’annoter les articles (Tags)

L’année 1840 a été mise en ligne sur ce prototype. Venez l’essayer et faîtes nous part de vos impressions : http://goo.gl/etnMG

—————–

Depuis 2010, le fond du Journal de Rouen est numérisé et accessible en salle de lecture. En mai 2012, les années de 1792 à 1938 ont été publiées sur internet.

Durant les opérations de numérisation, le Journal de Rouen a bénéficié d’une transcription automatique par OCR (reconnaissance des caractères). Au delà de la simple image numérisée, l’OCR transforme le texte imprimé photographié en texte informatique, qu’on peut alors indexer, rechercher et copier.

Ce traitement OCR représente une source d’information importante qu’il s’agit d’exploiter pour faciliter vos recherches. C’est pourquoi nous nous sommes associés au Laboratoire d’Informatique, du Traitement de l’Information et des Systèmes (LITIS : www.litislab.eu) qui travaille depuis 2010 à l’élaboration d’outils permettant la valorisation de cette source d’information.

Aujourd’hui, la plateforme de démonstration peut désormais vous être présentée. L’outil proposé est un prototype permettant d’illustrer les possibilités offertes par les technologies de l’information et de la communication.

Ce démonstrateur propose 3 principales fonctionnalités innovantes :

• L’utilisation de méthodes d’intelligence artificielle pour découper chacune des pages du Journal de Rouen en articles.

• Un moteur de recherche « plein texte » sur l’ensemble des données en ligne : l’outil recherche dans le contenu de chacun de ces articles.

• Un module collaboratif pour la correction de l’OCR : chaque internaute a la possibilité de corriger le texte mal reconnu (celui-ci étant issu d’un traitement automatique). Ainsi, non seulement le texte est plus lisible, mais aussi mieux indexé.

Ces nouveaux usages vous sont proposés à des fins expérimentales. Aujourd’hui, seule l’année 1840 du Journal de Rouen a été mise en ligne sur la plateforme et le moteur de recherche retournera uniquement les résultats pour cette année. Vous pouvez également apporter vos contributions à la correction du texte, celles-ci seront ensuite partagées aux autres utilisateurs.