Haiyan_QIU_Jinyuan

Pour assurer l'intégrité du Projet, nous avons décidé d'écrire ce chapitre, mais son contenu provient entièrement de la section Projet encadré (accès restreint) sur Icampus, et les scripts et ressources utilisés sont fournis par M. Serge Fleury.

Ressources disponible :

Après avoir extrait le texte d'un fil RSS, il faudra lui attribuer sa rubrique : pour rappel les rubriques sont décrites dans la présentation du projet
On utilisera pour cela des rubriques déjà construites sur les fils RSS : rubriques-2017-2018-2019. Ces fichiers (un par rubrique) concatènent les données des années 2017, 2018 et 2019.
Notre programme pourrait aussi utiliser une stop-liste : STOP-LISTE
Le programme est disponible ici : Load-BAO4-classif-fil-full-NB.pl (via NaïveBayes)

Mode d'emploi :

Le programme se lance comme ci-dessous :

PROGRAMME [options] <REPFIL> <REPTRAIN> <REPTREETAGGER> [fichier-stop-list]

REPFIL : répertoire contenant l'arborescence des fils RSS
REPTRAIN : répertoire contenant les rubriques passées utilisées pour l'entraînement
REPTREETAGGER : le nom du répertoire contenant les ressources pour treetagger
fichier-stop-liste (optionnel) : le nom du fichier stop-liste

Le programme se lance comme ci-dessous :

perl Load-BAO4-classif-fil-full-NB.pl 2020 categorie-2018-sf ../distrib-treetagger stoplist.fr-etendue-utf8.txt

OPTIONS qu'on peut choisir :

-h imprime le mode d'emploi de ce programme
-e travail sur les lemmes après étiquetage avec treetagger
-c travail sur les caractères
fichier-stop-liste (optionnel) : le nom du fichier stop-liste

Le programme réalise les différentes étapes suivantes :

Phase 0 : lecture des ressources
Phase 1 : entraînement
Phase 2 : traitement du corpus de fil RSS (parcours)
Phase 4 : affichage de la synthèse des résultats de la classification

Exemple de sortie produite pour NaiveBayes : (le détail est disponible dans ce fichier logParcours.txt)

Boîte à outils 4

Classification automatique

Ressources disponible :

Mode d'emploi :