Travail d'informatique L2 Sciences du Langage

Python, Unix et XML

Quéau Coralie

Le cours d'informatique et industrie de la langue a permis de nous initier au traitement automatique de textes grâce à :

Pour effectuer un traitement automatique avec Python, j'ai choisi une page web, celle de l'ILPGA, que j'ai ensuite traitée avec des expressions régulières. En voici le résultat.

Voilà ce que l'on doit inscrire dans Python IDLE pour obtenir les résultats précédents

Avec Unix, il s'agit d'écrire des commandes permettant de filtrer et d'afficher les lignes. Ce travail sera réalisé à partir du texte "Père Duchesne"

Lignes contenant des mots commençant par "citoy"

egrep "\bcitoy" duchn.txt

Lignes contenant des mots commençant par "aristo"

egrep "\baristo" duchn.txt

Lignes contenant des mots commençant par "bougre"

egrep "\bbougre" duchn.txt

Lignes qui parlent des "Sans-culottes"

egrep "culotte" duchn.txt

Lignes contenant une majuscule

egrep "\*" duchn.txt

Lignes contenant des mots qui se terminent par "er"

egrep "er\b" duchn.txt

Lignes contenant des mots qui parlent de "danger"

egrep "danger" duchn.txt

Lignes contenant des mots qui parlent de "patrie"

egrep "\bpatri[^a]" duchn.txt

Lignes contenant des mots qui parlent de "liberté"

egrep "\blib" duchn.txt

Lignes contenant des mots qui parlent de "temps"

egrep "temps" duchn.txt

Lignes contenant des mots qui parlent de "république"

egrep "républi" duchn.txt

Lignes contenant des mots qui parlent de "trahison"

egrep "trahi" duchn.txt

Lignes contenant des séquences de mots comportant une forme négative

egrep "\bn['e]\b" duchn.txt

XML: création d'entrées de dictionnaire, le domaine choisi est celui des félins. Voilà ce qu'on obtient:

Ce qu'on tape dans le bloc-notes pour obtenir ce résultat