Résultats partie 2

Exercice n°1

A partir du texte Duchesne, j'ai réalisé différentes manipulations afin de répondre au mieux à vos attentes. J'ai tout d'abord utilisé le logiciel Cygwin. J'ai entré différentes expressions que vous trouverez plus amplement détaillées ci-contre. Par la suite je me suis servi du logiciel Faststone Capure afin de réaliser des captures d'écran de ces expressions. Je les ai ensuite retravaillées. Vous trouverez aussi dans les liens les différents résultats obtenus grâce à ces expressions.

Extrait du cours pour comprendre les manipulations des commandes effectuées

Le texte du Père Duchesne

Réponse 1

Ecrire une commande qui permet de filtrer les lignes : • contenant des mots commençant par « citoy ». Commande tapée : egrep « \bcitoy » duchn.txt

Commande :

Résultat de la commande

Réponse 2

• contenant des mots commençant par « aristo ». commande tapée : egrep « \baristo » duchn.txt

Commande :

Résultat de la commande

Réponse 3

• contenant des mots commençant par « bougre ». la commande que l’on tape pour trouver combien de fois apparaît le mot bougre est : egrep « \bbougre » duchn.txt Le mot bougre apparaît 304 fois dans ce texte on peut le voir

Commande :

Résultat de la commande

Réponse 4

• qui parlent des « Sans-culottes ». la commande que l’on tape pour trouver combien de fois apparaît le mot bougre est : egrep « culot» duchn.txt Le mot culot apparaît 540 fois dans ce texte on peut le voir

Commande :

Résultat de la commande

Réponse 5

• contenant une majuscule (attention, au format des majuscules dans le texte) tout les mots précédés par une étoile il y a 3077 mot contenant une majuscule.

Commande :

Résultat de la commande

Réponse 6

• contenant des mots qui se terminent par « er ». « er\b » il y a 3324 mots se terminant par « er »

Commande :

Résultat de la commande

Réponse 7

• contenant des mots qui parlent de «danger ».

Commande :

Résultat de la commande

Réponse 8

• contenant des mots qui parlent de «patrie ». « patri[eo] » Les mots contenant l’idée de patrie sont au nombre de 292

Commande :

Résultat de la commande

Réponse 9

• contenant des mots qui parlent de « liberté ».

Commande :

Résultat de la commande

Réponse 10

• contenant des mots qui parlent de « temps ». Indiquer dans quels sens ce mot est employé.

Commande :

Résultat de la commande

Réponse 11

• contenant des mots qui parlent de « république ». « r.publi »

Commande :

Résultat de la commande

Réponse 12

• contenant des mots qui parlent de « trahison ».

Commande :

Résultat de la commande

Réponse 13

• contenant des séquences de mots comportant une forme négative : ne...pas, n’...pas, .... (\bne\b |n’)(\b[^\b]+\b )*(\bpas\b|\bplus\b|\bpoint\b) Il y a 936 formes négatives dans ce texte.

Commande :

Résultat de la commande

Exercice n°2 : Etude morphologique

Supports de travail ici & ici

1.      Combien de mots dans le fichier ?

 21

Explication : l’expression –c (option) compte tous les caractères entre les frontières de mots

2.      Avec la commande egrep extrayez les mots se terminant par -able. (Indiquez la ligne de commande).

 22

La commande extrait tous les mots se terminant par –able et l’inscrit dans un fichier texte appelé « résultat ».

3.      Combien y a-t-il de mots terminés par -able ? A quelle(s) partie(s) du discours sont-il rattachés ?

23

On rajoute l’option –c à la dernière expression qui permet de compter le nombre de mots qui se termine  par –able.

Noms :



On travaille ici dans le fichier dico-étiquette où la fonction syntaxique des mots apparaît puis on écrit l’expression terminée par _NOM pour trouver le nombre de mots ayant la fonction de nom et terminés par –able.

Adverbes :



On travaille ici dans le fichier dico-étiquette où la fonction syntaxique des mots apparaît puis on écrit l’expression terminée par _ADV pour trouver le nombre de mots ayant la fonction d’adverbe et terminés par –able.

Adjectifs:



On travaille ici dans le fichier dico-étiquette où la fonction syntaxique des mots apparaît puis on écrit l’expression terminée par _ADJ pour trouver le nombre de mots ayant la fonction d’adjectif et terminés par –able.

Verbes:



On travaille ici dans le fichier dico-étiquette où la fonction syntaxique des mots apparaît puis on écrit l’expression terminée par _ VER pour trouver le nombre de mots ayant la fonction de verbe et terminés par –able.

4.     
Même question pour -eux.

On utilise la même expression que pour la recherche du nombre d’occurrences de motsse terminant par –able (exercice 3) en changeant « able » par « eux ».

Noms:



Adverbes:



Adjectifs:



Verbes:



Pronoms:



5.     
Quelle commande permet d'extraire à la fois les mots se terminant par -able et ceux se terminant par -ible:



La commande extrait tous les mots se terminant par -able et ible et l’inscrit dans un fichier texte appelé «resultat2».

Les crochets permettent de sélectionner l’un des caractères compris entre ceux-ci :

Ici en écrivant [ai] on obtient la recherche des éléments soit « a » soit « i » puis on les fait suivre de l’expression « ble » ce qui nous permet d’obtenir tous les mots se terminant par –able ou –ible.

Exercice n°3 : Création d'entrées structurées d'un dictionnaire

Dans cette dernière partie nous avons travaillé avec le TLF, notepad++, paint et le langage xml. Nous avons tout d'abord trouvé dix définitions de mots ayant un lien sémantique dans le TLF. Puis nous avons créé de l' xml afin de mettre en forme ces définitions. C'est ensuite que nous avons utilisé Paint dans le but de fabriquer une arborescence représentant l'xml et les définitions. En partant de 10 entrée du TLF, nous avons dessiné une arborescence pour décrire ces données. Ensuite, suivant cette représentation, nous avons décris les données de départ suivant le modèle choisi.

J'ai





Voici dix animaux de la famille des primates:


                                                  

Le Chimpanzé

Le Colobe

Le Gibbon

Le Maki

Le Mandrill

orang

L'Orang-outan

Le Ouistiti

Le Saïmiri

Le Tamarin

Le Tarsier

 Voici l'arborescence que j'ai faîte à partir des définitions des dix entrées précédentes:

Arborescence

Mais voici le véritable arbre généalogique des primates:



Le fichier word avec les définitions exactes de chacunes des entrées à télécharger ici

Voici un apperçu de l'arborescence xml téléchargeable ici sous Notepad++



Voilà ce que donne le résultat final ici