Programmation pour le TAL avec PERL [L6T51]

Accueil Etape 1 Etape 3 Etape 4 Etape 5 Etape 6

Exercice

Vous choisirez cinq formes graphiques différentes. Vous construirez ensuite un programme perl qui prend en entrée un état du corpus et un mot donné. Le résultat produit par ce programme doit être une concordance de cette forme dans le texte lu.
> Vous appliquerez ce programme sur les différents états du corpus.

Script

Le script est constitué de trois étapes :
- interactions avec l'utilisateur : choix du mot à chercher, de la fenêtre de mots, du format à traiter
- mise en forme de la sortie : formatage de la sortie, création d'un tableau pour le concordancier, etc.
- traitement spécifique de chaque format : identification de la forme, segmentation en mots, nettoyage

Exemple d'éxecution :

Améliorations à apporter
Il aurait pu être économique de créer une procédure unique de nettoyage des contextes (étiquettes, chiffres, tirets, etc.) qu'il aurait suffit d'appeler pour chaque type de fichier traité ; ou bien de formuler les motifs de recherche de manière à ne récupérer que le minimum de "déchets" (comme il a été fait pour le traitement de .bal).

>> Voir le script (commenté)

Résultats

Voir les résultats pour la recherche du motif "tonique" avec une fenêtre 2/2 sur les quatre fichiers :
>> concordancier5_bal.html
>> concordancier5_fic.html
>> concordancier5_tab.html
>> concordancier5_tag.html*

(*) la différence d'affichage dans la sortie du fichier .tag est due au format du fichier d'origine dans lequel chaque phrase est suivie d'un retour à la ligne. Tout ce qui se trouve dans un phrase/ligne précédente ou suivante n'est donc pas affiché dans le concordancier.

haut de la page