Accueil

Présentation du projet

L'objectif de ce cours est une mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation sous forme de graphes. Pour cela, on utilisera des outils informatiques comme Cordial, TreeTagger ou encore Pajek, et on traitera les données d'entrée grâce à des scripts perl et au langage XML.

Les fils RSS sont des flux de contenus gratuits en provenance de sites Internet. Ils incluent les titres des articles, des résumés et des liens vers les articles intégraux à consulter en ligne. Les dernières informations publiées sur Le Monde.fr peuvent ainsi venir enrichir automatiquement votre site Internet ou compléter vos sources d'informations déjà agrégées via un logiciel de lecture des flux RSS.

 

Corpus de travail

Notre travail s'effectue ici sur les fils RSS du journal Le Monde : 16 fils en tout, archivés tous les soirs à 19h pendant plusieurs semaines. On travaille sur la période du 1er au 15 janvier 2008. Les rubriques qui nous intéressent sont les suivantes :

  • A la une
  • Cinéma
  • Culture
  • Economie
  • Environnement et Sciences
  • Europe
  • Examen 2008
  • International
  • Livres
  • Medias
  • Opinions
  • Rendez-vous
  • Société
  • Sports
  • Technologies
  • Voyages

    On se retrouve donc avec un fichier par rubrique et par jour qui sont ensuite classés dans une arborescence de fichiers.

    Chacun de ces dossiers contient deux fichiers par rubrique, l'un en XML et l'autre en texte simple.

    Nous ne nous interesserons qu'au fichier XML car les balises nous permettrons d'extraire les zones textuelles sur lesquelles on effectuera le traitement. Voyons maintenant en quoi constiste notre travail.

     

    haut de page

    Chaîne de traitement

    Boite à outils 1
    La première partie du traitement consistera à extraire le texte qui nous servira de corpus. Pour cela on utilisera un script de filtrage et un script de nettoyage.

    Boite à Outils 2
    Puis il s'agira d'étiqueter le texte à l'aide des outils Cordial et Treetagger en travaillant cette fois-ci directement sur les fichiers textes de notre corpus.

    Boite à Outils 3
    A l'aide d'un script Perl de filtrage on pourra alors extraire des patrons syntaxiques de notre corpus.

    Boite à Outils 4
    Enfin on pourra créer des graphes à partir des patrons extraits à l'étape précédente.

    Ce qui peut se résumer par l'illustration suivante (reprise sur la page de présentation plurital du projet):

    haut de page