
Boite à outils 1
Extraction (filtrage, nettoyage) de fils RSS grâce à un script Perl.
Extraction (filtrage, nettoyage) de fils RSS grâce à un script Perl.
Étiquettage grâce à treetagger et talismane (nouveau au programme).
Extraction de patrons morphosyntaxique en perl.
Visualisation.
Ceci est un site créé dans le cadre du projet encadré du second semestre de M1 Traitement Automatique des Langues.
Nous avions déjà réalisé un projet au premier semestre (voir ici ) sur la perception du viol dans la presse-web. Au niveau technique,
il s'agissait d'utiliser les languages bash et python pour aspirer des pages
en plusieurs langues, traiter les problèmes d'encodage, puis extraire et analyser des motifs.
Dans celui-ci, il s'agira, comme mentionné dans la page du cours, de :
Mise en oeuvre d'une chaîne de traitement textuel semi-automatique, de la récupération des données à leur présentation. Ce cours posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...). Ce cours sera aussi l'occasion d'une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif.`
Nos données consisteront en fils RSS issus du journal Le Monde. Les fils ont été récupérés par
les soins du Pr Fleury en grande partie, grâce à un script bash et perl, activé par cron chaque
jour de l'année 2018,
à 19h.
Ainsi, il a mis à notre disposition un dossier contenant pour chaque jour de l'année les 17 fils
d'actualité du journal (/img/).
Un dossier contenant les fils d'une année constitue une arborescence organisée de la façon
suivante :
Nous avons décidé, en tant que groupe de nous concentrer sur trois fils :
Chaque boîte à outils représente une étape de notre chaîne de traitement.
Elles seront
présentées en détails dans leur partie respective.
Fichier XML généré automatiquement qui rend compte des mises à jour d'un site web. Sa structure respecte une convention, ce qui lui permet d'être diffusé et lu par le plus grand nombre. Il permet aux utilisateurs qui s'y abonnent d'être facilement tenu au courant des nouveautés sur un site, en recevant un mail par exemple.
Motif morpho-syntaxique donné par l'utilisateur en entrée de la BaO3. Ex : "NC ADJ" (Un nom commun suivi d'un adjectif)