Conclusion

On a pu effectuer tout un ensemble de traitements automatiques tels l’extraction, l’alignement et l’étiquetage de corpus à travers ce projet, ce qui fut une bonne application des connaissances acquises en cours cette année. Cependant, les résultats sont loin d'être convaincants au niveau linguistique. Cela confirme l'idée qu'il est important d'avoir un corpus satisfaisant non seulement au niveau de la qualité mais aussi de la quantité. En effet, le nombre suffisant d’occurrences et la cohérence du sujet entre les textes sont essentiels pour une analyse linguistique plus approfondie.

De même pour le petit lexique qui aurait pu être beaucoup plus complet avec une plus grande quantité de textes. Malgré tout, ces résultats non à la hauteur de nos espérances ne sont pas une fin en soi. Si la méthode est bonne, il suffira donc d'agrandir le corpus pour avoir des meilleurs résultats. Cela demandera plus de temps car certaines étapes de la procédure restent encore manuelles, comme l'alignement des paragraphes ou encore celui des mots. On pourra peut être à l'avenir, rendre cela automatique...