Objectif
Extraire des patrons morphosyntaxiques dans les fichiers étiquetés obtenus avec la bao2.

Extraction de patrons morphosyntaxiques dans les fichiers étiquetés par Cordial (script SF)

Pour cette méthode, on donne le fichier étiqueté et le patron recherché en ligne de commande. Ainsi, pour chercher les séquences NOM-ADJECTIF, on utilisera :

On commence par ouvrir le fichier cnr. En lisant le fichier ligne par ligne, on peut utiliser chaque ligne comme un élément d'une liste.

On récupère ensuite le premier élément de la liste à l'aide de shift (qui enlève ledit élément de la liste et prend cet élément comme valeur de retour) et on initialise les variables qui nous permettront de récupérer les tokens ($sequence) et de compter le nombre de POS recherchés ($longueur).

On utilise ensuite une expression régulière pour voir si la première étiquette donnée en ligne de commande correspond à la 3e colonne du fichier étiqueté (la 3e colonne étant celle où se trouvent les étiquettes morphosyntaxiques). Si elle correspond, on utilise les parenthèses capturantes pour assigner la valeur du token à la variable $sequence (en concaténation).

On passe à la ligne suivante en mettant la condition que la variable $indice doit être inférieure aux nombres d'arguments donnés. Si la 3e colonne correspond à l'étiquette recherchée suivante, on concatène le token correspond à $sequence et on incrémente la longueur.

Enfin, on écrit la séquence dans un fichier si $longueur est égale au nombre d'arguments donnés en ligne de commande.

Voir le résultat de la recherche NOM-ADJ (rubrique International)

Télécharger le script

Extraction de patrons morphosyntaxiques dans les fichiers étiquetés par treeTagger (script RB)

On peut utiliser le module XML::LibXML pour extraire des patrons. On donne le fichier étiqueté par treeTagger et un fichier contenant les motifs à chercher en ligne de commande.

Télécharger le script.