
Analyse quantitative
En ce qui concerne le corpus, les données sont suffisamment importantes pour pouvoir être exploitées de manière intéressante. Le seul moment où j'ai parfois manqué de données a été lors de l'extraction des patrons dans la BAO3.
En effet, il fallait trouver des patrons différents en fonction de chaque rubrique. Or j'ai été obligée de faire des hypothèses pour deviner quels patrons étaient les mieux adaptés à chaque rubrique. J'avais parfois une idée de patron mais,
en l'extrayant, je me suis aperçu qu'il y avait en fait très peu de données correspondantes. Il aurait peut-être été appréciable de compter au préalable les patrons les plus fréquents dans chaque rubrique afin de faire des analyses plus fines et plus adaptées.
Ceci est d'autant plus vrai que la taille du corpus est conséquente et il est impossible de tout regarder à la main.
Analyse qualitative
Justement à cause de la grande quantité de données, il est difficile de faire des analyses pertinentes à partir des résultats. Par exemple pour l'analyse des patrons et des relations de dépendance
dans la BAO3, les résultats ont parfois peu de sens hors contexte. Or regarder les contextes des résultats dans les fichiers du corpus prend beaucoup de temps.
Toujours concernant les patrons morpho-syntaxiques de la BAO3, il aurait été intéressant de les exploiter, de la même manière que l'on a fait des graphes à partir des relations de dépendance. J'ai tenté
d'en faire une analyse globale, mais un outil de visualisation aurait peut-être permis de mettre à jour d'autres phénomènes.
Enfin, il aurait été intéressant d'exploiter le facteur temporel. Le corpus des fils RSS du Monde est classé en fonction des mois et des jours de l'année. On aurait donc pu
faire des graphes comprenant des données temporelles afin de voir l'évolution de phénomènes linguistiques au cours du temps. Puisque le Projet Encadré s'appuie sur les articles du Monde chaque année,
on aurait aussi pu envisager de faire une comparaison entre les résultats trouvés cette année et ceux des années précédentes.
Conclusion
Pour conclure, le cours Projet Encadré a été un moyen de nous initier à la programmation en Perl et d'approfondir nos connaissances en Python. Le fait de faire à chaque fois
des scripts équivalents dans les deux langages nous a permis de voir les points faibles et les points forts de l'un et de l'autre. Par exemple, Perl est très flexible et ses expressions
régulières très puissantes, mais c'est un langage difficile à maîtriser car sa syntaxe est abstraite. Python en revanche est plus concis et permet de faire des programmes plus
accessibles, mais il est parfois moins souple que Perl. Il était également appréciable de lier ce cours avec Documents Structurés en accomplissant les mêmes tâches avec XQuery et XSLT dans la BAO3. Cela
nous a permis de voir les différences entre un "véritable" langage de programmation et les langages de requête ou de transformation.
Même si la visée du cours est avant tout de mettre en place des outils informatiques, ce projet nous as permis de faire des analyses linguistiques et de proposer des visualisations
à partir du travail effectué.