BoiteOutils_RaphaelSchaeffer

Conclusion

Nous constatons que pour un simple projet monolingue, nous rencontrons déjà divers problèmes liés à l'encodage. Pour les résoudre, il faut identifier les encodages de tous les fichiers sources, surtout quand ils sont hétérogènes. Il est également nécessaire, de vérifier que les différents programmes utilisés dans la chaîne de traitement supportent les encodages utilisés ou bien faire des conversions.

Le choix de l'analyseur morphologique pose un dilemme. Faut-il privilégier la qualité d'étiquetage, ou bien l'ergonomie d'utilisation dans la chaîne de traitement.

Le résultat de la recherche de candidats-termes par patrons morpho-syntaxiques contient du bruit à cause des erreurs d'étiquetage. Il faudrait faire un traitement supplémentaire pour supprimer les erreurs récurentes observées pour chaque analyseur, et (ou) faire des rectifications manuelles.

L'affichage des résultats en graphe sous pajek permet d'avoir une vue synthétique intéressante sur un aspect du corpus. Cela serait bien, si les noeud se répartissaient automatiquement pour que le graphe soit lisible sans opérations manuelles fasitidieuses.

Tout le code perl est les résultats ont été intégrés de façon automatique au site pour une navigation plus fluide. La lecture du code dans un éditeur approprié avec coloration syntaxique reste tout de même plus confortable.