Boîte à outils


Bienvenue sur notre site!


Ce site a été créé dans le cadre du cours "Projet encadré et programmation 2" du Master 1 TAL, dans le but de présenter un traitement très complèxe qui se divise en plusieurs étapes. Le corpus initial comprennait les fils RSS du journal Le Monde (années 2009 et 2010).

Les étapes du travail ont été nommées "Boîte à outils" (BAO 1 à 4). Pour chacune d'elles on décrira le traitement textuel réalisé et les outils implémentés pour arriver aux résultats demandés.



Boîte à outils 1


La Boîte à outils 1 comprend les premiers pas dans le traitement des fils RSS recoltés. Nous avons implémenté plusieurs méthodes pour arriver à:

  • extrait le contenu des balises "titre" et "resume";
  • nettoyer et normaliser le contenu (supprésion des scories, remplacement des caractères spéciaux, etc.);
  • diriger le contenu vers deux types de fichiers de sortie: texte brut (txt) et xml.

Boîte à outils 2


Dans cette deuxième étape, on continue le traitement commencé en BAO1 tout en modifiant le script initial afin d'effectuer un étiquetage morphosyntaxique sur les données extraites par les outils Treetagger et Cordial.


Boîte à outils 3


La Boîte à outils 3 comprend l'extraction des patrons morphosyntaxiques: Adj Nom, Nom Adj, Nom Prep Nom, à partir des sorties de BAO2 format .cnr produites par Cordial et format xml produites par Treetagger. Cette étape se différencie des autres par la variété des scripts perl utilisés. Comme on verra chaque script a un rôle spécifique dans l'obténtion des patrons morphosyntaxiques désirés.


Boîte à outils 4


Dans cette étape nous concluons le traitement du contenu textuel. Les patrons morphosyntaxiques seront répresentés graphiquement grâce au script perl patron2graphe.pl.


Liens utiles