Boîte à Outils n°1

Mise en place

Le but du premier script est de parcourir l’arborescence qui contient tous les fils RSS du Monde pendant un an. On doit ensuite extraire le contenu de la ou des rubriques qui nous intéresses.

En effet on veut récupérer en sortie tous les contenus concaténés des balises <description>, <title> et <item>.

L'objectif étant de finalement obtenir une sortie .txt qui pourra ensuite être exploitée dans la boîte à outils n°2 avec Cordial et TreeTagger.

On peut également obtenir une sortie structurée en XML. Nous avons ajouté cette sortie.

Ce cours posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...).

Ce cours sera aussi l'occasion d'une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif.

Corpus étudié

Le corpus à traiter est constitué de 17 fils RSS quotidiens au format XML tirés du journal en ligne LeMonde.fr, qui ont été archivés tous les jours à la même heure en 2009 et 2010.

Chacun des fils journalier correspond à une des rubriques du journal.

L’arborescence des fichiers recueillis présente une structure mois/jour/heure/filRSS.xml.

Le but du projet étant d'extraire des informations, correspondant à des patrons syntaxiques particuliers, on présentera les résultats en fin de traitement sous forme de graphes de mots.

Ce genre de traitement peut s'avérer particulièrement utile pour l'extraction terminologique ou encore la fouille de textes et l'extraction de connaissances.

Scripts de la BAO n°1

La BAO1 permet de réaliser des extractions, filtrages et nettoyages.

Ainsi, grâce à un sript perl, nous pouvons récupérer uniquement les titres et les résumés de chaque article sans doublons ni entités HTML ou caractères spéciaux.

On peut décomposer ce script en sous-parties :

bao1-1 : on utilise la bibliothèque XML::RSS et HTML::Entities
bao1-2 : la bibliothèque XML::XPath est utilisée pour ce script
bao1-3 : ce script utilise la bibliothèque XML::LibXML

Les bibliothèques ont des spécificités lors du traitement mais elles ont également des similitudes comme la procédure de nettoyage. Le premier script fait appel à la procédure de filtrage pour chercher des balises à étudier. Grâce aux bibliothèques ajoutées, les deux autres scripts font un traitement en direct par le biais des commandes "find" ou "findnodes" pour trouver les noeuds demandés.

Sortie

En sortie nous obtenons des résultats en texte brut mais aussi en XML pour pouvoir réaliser des traitements avec Cordial et TreeTagger. Les trois scripts produisent des sorties similaires codées en UTF-8 comme nous ci-dessous :

Télécharger l'archive de BAO n°1

télécharger l'archive de la BAO