Présentation du projet : "Boîte à Outils"!

BAO 1 :
Extraction du texte

Parcourir toute l'arborescence et extraire les contenus textuels de tous les fils (classement des textes extraits par rubrique)

BAO 2 :
Étiquetage du texte

Étiqueter les contenus textuels extraits automatiquement (Treetagger et UDpipe : annotation en morpho-syntaxe et en dépendances)

BAO 3:
Extraction de patrons

Rechercher et extraire de termes sur les données étiquetées (les séquences NOM PREP NOM, NOM ADJ etc.) ou de relations de dépendances

PRESENTATION DU PROJET


Le travail que nous vous présentons sur notre site internet a été effectué sur l’ensemble des fils RSS 2020 du journal Le Monde et se divise en trois parties, correspondant chacune à une « boîte à outils ».

Le corpus est divisé en mois, puis jour et enfin heure. Les fils RSS sont sous forme de documents XML, et correspondent chacun à une rubrique particulière. Ils sont constitués du titre de l'article ainsi que de sa description et son contenu. Le projet consistait à extraire des informations visées, les étiqutter et extraire des patrons morpho-syntaxiques.

Le but de ce projet est d'apprendre un langage de programmation, Perl ou Python en réalisant une suite de traitements de données divisée en plusieurs étapes. Chaque étape correspond à une "boîte à outils", celles-ci réalisent des tâches bien précises. Les outils informatiques utilisés pour faire ce projet sont Perl, XSLT, le Trameur.