Retour Partie 2

Requêtes Texte Brut

Pour faire les exercices qui suivent, nous avons utilisé le fichier Duchn-utf8.txt (ouvert avec TextWrangler pour qu'il s'affiche mis en forme) et le Terminal de Mac OS X. Nous avons donc travaillé à partir de ceci :

Exercice 1 : écrire des commandes pour filtrer des lignes...

- qui contiennent des mots commençant par "citoy" :


On trouve citoyen, citoyenne, citoyenneté... voir le résultat

- qui contiennent des mots commençant par "aristo" :


On trouve aristocrate, aristocratie... voir le résultat

- qui contiennent des mots commençant par "bougre" :


On trouve bougre, bougres, bougresse, etc. voir le résultat

...qui font référence aux Sans-Culottes :


On trouve Sans-culotte, Sans-culottes ou encore Sans-culotterie... voir le résultat

...qui contiennent une majuscule :


On trouve tous les mots du texte précédés d'une astérisque, signe que ce sont des majuscules. voir le résultat

...qui contiennent des mots terminés par "er" :


voir le résultat

...qui font référence au "danger" :


On trouve des mots comme danger, dangers, dangereux... voir le résultat

...qui font référence à la "patrie" :


On trouve patrie, patriote, patriotisme, etc. voir le résultat

...qui parlent de "liberté" :


On trouve liberté et libre, libres. voir le résultat

...qui font référence au "temps" :


On trouve temps ou temporel. Ils désignent l'époque, le moment, la génération, ou bien font partie des expressions "passe-temps" ou "faire la pluie et le beau temps". voir le résultat

...qui font référence à la "république" :


On trouve république, républicain, républicaines... voir le résultat

...qui parlent de "trahison" :


On trouve le verbe trahir et ses formes fléchies (trahissent, trahis) ainsi que trahison et traître. voir le résultat

...qui comprennent des séquences d'adverbes de négation :


On trouve "ne pas", "ne ... pas/point/plus", et la forme élidée "n apostrophe". voir le résultat

Complément : analyse avec Antconc
















Exercice 2 : faire une étude morphologique

Nous avons effectué, toujours à partir de la ligne de commande et à l'aide d'expressions régulières, une analyse morphologique du fichier "dico.txt". Malheureusement, des problèmes d'encodage (voir l'image ci-dessous) ne nous permettent pas un filtrage optimal des morphèmes recherchés. Voici tout de même les résultats obtenus, assortis de captures d'écran Antconc.

Comptage du nombre de mots du fichier :

Extraction des mots se terminant par -able :

 

Comptage des mots se terminant par -able, puis par -eux :


Il s'agit d'adjectifs.

Commande permettant de trouver les mots terminés par -able ET par -ible :