Bienvenue sur le site de notre projet
Description du projet
Langages & Outils de TAL utilisés pour la réalisation du projet
Les fichiers de sortie sont à chaque fois soit au format txt, soit au format xml.
But du projet
Le travail de projet Boîte à Outils nous a permis d'appréhender les exploitations possibles d’un fil RSS selon les méthodes TAL. Les fils RSS sont très intéressants pour se familiariser avec la manipulation de gros corpus de données textuelles, mais aussi avec la veille d’information.
Ici, nous travaillons sur un corpus constitué de l’ensemble des fils RSS disponibles sur le site du journal Le Monde, recueillis tous les jours de l’année 2020 à 19h. Ce corpus a été préparé sous forme d’une arborescence de fichiers, structurée comme ceci:

Les informations contenues dans ces fils RSS sont triées selon les différentes rubriques présentées dans le journal Le Monde et sont identifiables dans les noms de fichiers par un code chiffré unique à retrouver dans le tableau suivant:

Pour notre travail, nous avons choisi de nous concentrer sur quelques rubriques parmi celles présentées ci-dessus.
Rubriques choisies pour la BAO1 :
Rubriques choisies pour la BAO2 et la BAO3:
Nous avons fait le choix de conserver tout au long de notre travail la rubrique n°3208, “à la une” car elle offre un coup d'œil sur l’ensemble des domaines couverts par la presse.

Qui sommes-nous?
Nous sommes Léa et Alexandra (enfin, l'une des quatre de cette promotion !), étudiantes en master 1 de TAL à l'INALCO. Alexandra sort d'une licence LLCER russe, alors que Léa a fait une LLCER TNM option japonais.
