La boîte à patrons - partie 3

Les deux programmes donnés fonctionnent sous Cywin Beta 20. Ces programmes lisent un fichier étiqueté qu'on donne en argument 0 et un fichier contenant les patrons donnés en argument 1.


  1. TreeTagger

    Toujours à partir d'un programme donné au départ, mais cette fois-ci ce programme permet de relever des patrons syntaxiques. Ce programme permet de lire le contenu de l'étiquetage avec TreeTagger et d'extraire les patrons syntaxiques donnés en argument. Le patron utilisé correspond au nom suivi ou précédé par un adjectif. On obtient ce résultat.

    Il n'est pas utile d'utiliser des expressions régulières dans ce patron car les genres et les nombres des noms et des adjectifs ne sont pas précisés.



  2. Cordial

    En ce qui concerne le fichier étiqueté avec Cordial (vu précédemment), il convient de noter que l'étiquetage se présente différemment de celui de TreeTagger. En effet, dans pour le programme de TreeTagger, l'étiquetage se présentait ainsi : mot patron lemme. Tandis que pour Cordial, l'étiquetage est indiqué ainsi : mot lemme patron.

    Le programme entier donné par les professeurs est téléchargeable ici.

    Un premier patron a été utilisé. Il permet d'extraire tous les noms suivis ou précédés des adjectifs. Il convient de noter qu'afin d'extraire tous les noms communs et tous les adjectifs quelques soient leurs genres et nombres nous avons utilisé des expressions régulières. La catégorie est indiquée par des caractères en majuscules. La première expression utilisée lors de ce premier patron était de la forme : NC[A-Z]+ ADJ[A-Z]+ , elle permet de rechercher tous les NC (donc noms communs) suivis d'une ou plusieurs majuscules quelconques; puis d'un espace et enfin d'un ADJ qui lui-même est suivi d'une ou plusieurs majuscules quelconques. On obtient ce résultat.

    L'utilisation d'autres expressions régulières telles que NC... ADJ... n'aurait pas permis d'extraire tous les NC et tous les ADJ. En effet, par exemple l'expression donnée n'aurait permis que d'extraire les NC suivis de trois caractères quelconques, d'un espace et d'un ADJ lui-même suivis de trois caractères quelconques. 


    Un deuxième patron a été utilisé. Il permet d'extraire tous les noms propres ou communs suivis d'un verbe conjugué donc soit à l'indicatif soit au conditionnel. L'expression utilisée est N(C|P)[A-Z]+ V(CON|IND)[A-Z0-9]+ , elle permet de rechercher tous les N suivis soit d'un C soit d'un P (l'optionalité est indiqué par la présence de l'opérateur | ), suivis d'une ou plusieurs majuscules quelconques, puis suivi d'un espace, puis de tous les V suivis soit d'un CON soit d'un IND, et enfin suivis d'une ou plusieurs majuscules quelconques. On obtient ce résultat.