Présentation

Le projet de ce second semestre se nomme "Boîte à Outil" (BàO).
Le corpus de travail se constitue de l'ensemble des fils RSS disponibles sur le site du journal "Le Monde" recueillis tous les jours de l'année 2018 à 19h.
Ce projet se divise en quatre parties:
- BàO1: extraction des contenus textuels des fils RSS de l'arborescence : les contenus des balises title et description.
- BàO2: étiquetage morphosyntaxique via TreeTagger et Talismane des contenus extrait dans la BàO1.
- BàO3: extraction de patrons morphosyntaxiques via un script perl, des feuilles de sytle XSLT et XQuery.
- BàO4: réalisation de graphes à partir des données construites à l'issue de la BàO3.
Nous avons décidé de traîter les rubriques Sports (3242) et Sciences (3244).