BaO 3 -1 | Perl

Objectif :

L’objectif de cette troisième boîte à outils est de parcourir les fichiers étiquetés par TreeTagger et UdPipe générés lors de la BàO2 et d'en extraire des patrons morpho-syntaxiques via différentes méthodes de traitement automatique. Ici nous utiliserons la méthode Perl.

Perl est un langage de programmation créé par Larry Wall en 1987 pour traiter facilement de l'information de type textuel. C'est un langage interprété, polyvalent, et particulièrement adapté au traitement et à la manipulation de fichiers textes, notamment du fait de l'intégration des expressions régulières dans la syntaxe même du langage.

Les 4 patrons morpho-syntaxiques à extraire obligatoires sont les suivants :

  • NOM PREP NOM PREP
  • VERBE DET NOM
  • NOM ADJ
  • ADJ NOM

Les 2 patrons morpho-syntaxiques choisis par nos soins sont les suivants :

  • NOM PREP ADJ
  • PREP DET NOM

Voici le script en Perl

Script Perl




Résultats :

Rubrique ADJ NOM NOM ADJ NOM PREP ADJ NOM PREP NOM PREP PREP DET NOM VERBE DET NOM
A la une (3208) sortie sortie sortie sortie sortie sortie
Société (3224) sortie sortie sortie sortie sortie sortie
Culture (3246) sortie sortie sortie sortie sortie sortie
Cinéma (3476) sortie sortie sortie sortie sortie sortie

La relation de dépendance à extraire est la relation 'obj' :

Voici le script en Perl

Script Perl




Rubrique OBJ
A la une (3208) sortie
Société (3224) sortie
Culture (3246) sortie
Cinéma (3476) sortie