Objectif

Thème : recherche de patrons syntaxiques dans un corpus.

Exercice

Vous choisirez cinq formes graphiques différentes. Vous construirez ensuite un programme perl qui prend en entrée le fichier catégorisé et un nombre donné. Ce nombre définira la longueur de la fenêtre de mots que vous souhaitez extraire autour de la forme pôle.
> Vous appliquerez ce programme sur la version étiquetée du corpus Prématurés 96 (p96.tag).

Script

Ce script produit à partir du fichier taggé et de trois informations données par l'utilisateur (mot recherché, fenêtre de mots de part et d'autre) un concordancier au format HTML. Il offre en outre la possibilité de choisir le mode d'affichage des informations en sortie :
- mots + étiquettes syntaxiques
- mots seulements
- étiquettes seulement

Exemple d'éxécution du script :

NB : le script reste encore à améliorer, l'écriture notamment est loin d'être économique.

>> Voir le script

Résultats

On obtient pour le mot "pleure" avec une recherche 2/2 les sorties suivantes :

>> mots et étiquettes
>> mots seulement
>> étiquettes seulement

haut de la page