author

Récapitulatif final et clotûre

I. RÉCAPITULATIF DES RÉSULTATS :


Voici l'ensemble de fichiers résultants des trois premières étapes du projet Boîte à Outils :


BAO 1
BAO 2
BAO 3
XSLT
PERL
XQUERY
RUBRIQUE
ID
TXT
XML
TREETAGGER
TALISMANE
NOM+ADJ
ADJ+NOM
V+DET+NOM
NOM+PREP+
NOM+PREP
+NOM
Sciences
3244
Culture
3246
Technologies
651865
Cinéma
3476
Livres
3260
TOUT




II. CONCLUSION FINALE :


À l'aide de divers langages de programmation, nous avons abouti à examiner le corpus du journal Le Monde RSS de l'année 2018 et en extraire des patrons morphosyntaxiques pour ensuite effectuer une interprétation des résultats. Pour ce faire, on a suivi quatre étapes successives :

  • BAO 1, où on a parcouru l'arborescence de répertoires afin de récupérer les titres et descriptions des articles compris dans des fichiers triés par rubrique et date de publication. On a créé deux documents de sortie: l'un au format TXT et l'autre au format structuré XML, qu'on a construits à partir de 3 programmes différents (RegEx, XML::RSS, XML::XPath), chacun explorant les plusieurs possibilités et bibliothèques proposées par le langage Perl.

  • BAO 2, où l'on a effectué l'étiquetage morphosyntaxique des fichiers de sortie de BAO 1, à travers les programmes Talismane et TreeTagger. Cela nous a notamment servi à bien identifier les avantages et inconvénients des deux logiciels et, par là même, à bien décider l'outil de tagging à implémenter dans d'autres projets en fonction de la taille de données, la nécessité d'un étiquetage syntaxique en dépendance, la langue de base de notre corpus...

    À ce sujet, il faudrait mettre l'accent sur la lenteur de traitement de Talismane (une durée maximum de 10 heures par rubrique...). Or, il dispose d'une grande précision d'étiquetage et une véritable qualité de tokenisation (le fait d'avoir été développé en France pourrait en être une raison...). Vu que la sortie obtenue est écrite en format CONLL et, donc, en TXT, on a été censées effectuer une reconversion en format structuré XML.

    Quant à TreeTagger, il s'est avéré que son principal avantage est son multilinguisme, grâce auquel il est devenu l'étiqueteur POS le plus utilisé dans le monde. Bien qu'il ne contienne pas dans son lancement un prétraitement de tokenisation, sa performance et vitesse est indiscutable. À la manière de Talismane, en TreeTagger il est également nécessaire de s'en servir d'un script supplémentaire qui soit chargé de la reconversion en XML.

    Notons que même si cette phase se révèle assez élémentaire, elle influe directement sur les étapes qui le suivent, de telle sorte que les erreurs d'étiquetage seront aussi reproduites ailleurs et, par conséquent, cela entraînera des défauts de performance.

  • BAO 3, où nous avons réussi à extraire les patrons NOM-ADJ, ADJ-NOM, NOM-PREP-NOM-PREP-NOM et V-DET-NOM à partir des fichiers de BAO 2. Visant à optimiser nos scripts d'extraction et le temps de traitement, on a construit des solutions en Perl mais également en XSLT, qui a notamment favorisé l'extraction individuelle de patrons, et XQuery, qui a opéré une extraction brutale de tous les patrons pour chaque rubrique.

  • Enfin, on a mis en place la représentation en graphes dans BAO 4 (que l'on a nous-mêmes colorés, pour les rendre plus lisibles), où l'on a choisi des motifs textuels et, via le résultat donné, analysé l'entourage contextuel des formes représentées.

Pour conclure, nous voudrions remercier nos enseignants Serge FLEURY et Jean-Michel DAUBE pour leur implication et motivation. Ce travail nous a permis de comprendre la puissance du langage Perl, de maîtriser nos connaissances en expressions régulières et de raffiner l'emploi de certains conteneurs (hashages), entre autres. À chaque étape, on s'est efforcées de bien comprendre, expliquer et améliorer les programmes écrits en cours, en y insérant nos propres idées. Mais, avant toute chose, ce projet nous a appris la nécessité de réfléchir avant d'agir pour atteindre nos buts, ainsi que l'importance de la relecture et de la persévérance pour notre futur métier.




Site crée par Lucía ORMAECHEA GRIJALBA & Veronika SOLOPOVA