Comparaison des méthodes

Trois méthodes ont été utilisées afin d'extraire les patrons et, pour chacune, il a été décidé de ne pas utiliser les formes contractées de chaque article contracté, mais leurs formes développées. Celles-ci ont donné des résultats identiques.

Pour le programme perl, nous n'avons pas utilisé l'expression régulière m/^#|\d+-\d+/ pour filtrer les numéros de lignes des articles contractés car cela enlèverait également les formes étiquetées contenant un tiret, par exemple '1990-2020'.


Nos observations

1. Après avoir classé et trié les patrons extraits, nous avons constaté que pour toutes les rubriques que nous avons choisi (sauf 3546), le terme "crise sanitaire" figure parmi les plus fréquents, ce qui illustre bel et bien la situation durant l'année écoulée.

2. Nous avons également constaté que la rubrique 3546 (voyage) contient beaucoup de termes différents mais qui ont quasiment tous la même fréquence. Par exemple : 363 NOUN ADJ pyramide ovale; 363 NOUN ADJ procureur spécial; 363 NOUN ADJ pratiques communes; 363 NOUN ADJ port japonais... Ceci ne nous parait pas normal venant d'un corpus de journaux qui sont mis à jour. En examinant le corpus de plus près, nous avons effectivement trouvé plusieurs articles identiques au sein d'un mois, comme celui du 1er janvier, du 16 janvier et du 22 janvier 2020.

3. Enfin, nous avons remarqué que la fréquence des termes illustrent bien le thème de la rubrique dont ils appartiennent. Par exmple, pour la rubrique "économie", parmi les termes les plus fréquents on trouve : chômage partiel, crise économique, Banque centrale, chiffre d'affaires tandis que pour la rubrique "culture", les termes les plus fréquents sont : lecture en poche, sélection albums, nouveau roman, feuilleton littéraire et cinéma français.


Résultat de tri_UDpipe