Bienvenue dans mon site pour le cours de programmation et projet encadré n°2
L'objectif de ce cours est la mise en oeuvre d'une chaîne de traitement textuel semi-automatique, de la récupération de données jusqu'à leur présentation.
- La première boite à outils permettra l'extraction sous format .txt et .xml, à partir de fils RSS collectés, de titres et descriptions d'articles du journal Le Monde parus en 2016 pour une rubrique donnée.
- Nous étiquetterons ensuite en parts of speech (parties du discours) les données obtenues grâce à la deuxième boite à outils.
- Avec la troisième boite à outils, nous extrairons des patrons morpho-syntaxiques à partir des fichiers étiquetés précédemment .
- Pour finir, la quatrième boite à outils nous permettra de présenter et d'évaluer nos résultats sous forme de graphique.
Outils utilisés
Pour ce projet, nous avons utilisé les outils informatiques suivants:
- le langage de programmation perl
- les programmes d'étiquetage morpho-syntaxique cordial et TreeTager.
- le programme patron2graphe.exe.
