Exercice 1: Filtrer les lignes avec des commandes sur Cygwin

-Voici Une commande qui permet de filtrer les lignes contenant les mots commançant par "citoy":

[egrep "\bcitoy" Duchn.txt]

voir le travail entier ici

-Même chose pour "aristo" et "bougre"

[egrep "\baristo" Duchn.txt]

Voir ici

[egrep "\bbougre" Duchn.txt]

Voir ici

-Voici différentes commandes qui permettent de filtrer les lignes qui parlent de "sans-culottes"

[egrep -ci "(S|s)ans-culotte" duchn.txt]

Voir ici

-Pareil pour les lignes qui parlent de "danger"

[egrep -ci "\bdange(r|u)" duchn.txt] ==>

Pour prevoir les cas de dangeureux/reuse(s)-ment/erosite, mais pas vendanger.

Voir

-les lignes qui parlent de "patrie"

[egrep -ci "patri(e|o|a)" duchn.txt] ==>

Pour prevoir les cas de a- patrie(s)/ot -e(s) -isme(s) -ique(s)/arche(s) et pas patrimoine Voir

-les lignes qui parlent de "liberté"

[egrep -ci "\blib(r|é|e)" duchn.txt]==>

Pour prevoir les cas de libre(s) -ement, liberte/eration/eralisme/eralisateur, mais pas deliberer. Voir

-les lignes qui parlent de "temps"==>Pour les cas de temporaire(s)/ement mais aussi longtemps ou printemps

[egrep -ci "temp(o|s)" duchn.txt]

Voir

Pareil pour les lignes qui parlent de "republique"==> Pour prevoir l'accent et la famille de mot anti-/pre- republique(s) -ement /cain(s) -ne(s)

[egrep -ci "r.publi(q|c)" duchn.txt] Voir

-les lignes qui parlent de "trahison"==> On prevoit ainsi les cas de trahison(s) et de traitr/traitr -ise -e(s) -ement

[egrep -ci "\btra(hi|.tr)" duchn.txt] Voir

-Commande qui permet de filtrer les lignes avec des mots en majuscules

[egrep "\*" duchn.txt]==>

Comme les majuscules dans ce texte sont marquees telles que *X alors il suffit de rechercher les motifs ayant un asterisque devant.

voir le travail entier ici

-Commande qui permet de filtrer les lignes avec des mots qui se terminent par "er"

[egrep -ci "er\b" duchn.txt]

voir le travail entier ici

-Commande permettant de filtrer les lignes contenant des sequences de mots comportant une forme negative : ne...pas, n’...pas, etc.

[egrep -ci "(\bne\b|\bn')" duchn.txt]==> On recherche la particule qui marque la negation en français

voir le travail entier ici

Exercice 2: Etude morphologique



Pour cet exercice nous avons utilisé ce dictionnaire.
Nous avons utilisé l'outil egrep et wc pour les commandes.
Les resultats sont obtenus toujours avec Cygwin.



  • Combien de mots dans le fichier ?
    wc va compter le nombre de ligne.
    La commande est : wc -w dico.txt
    Le resultat obtenu est 136252.


  • Avec la commande egrep extrayez les mots se terminant par -able:
    La commande egrep utilisee est : egrep "able$" dico.txt
    lien vers resultat


  • Combien y a-t-il de mots termines par -able ?
    A quelle(s) partie(s) du discours sont-il rattaches?
    La commande est : egrep -c "able$" dico.txt
    Le résultat obtenu est 492.

    Les mots extraits appartiennent sont des adjectifs et des noms du discours.


  • Combien y a-t-il de mots termines par -eux ?
    A quelle(s) partie(s) du discours sont-il rattaches?
    La commande est : egrep -c "eux$" dico.txt
    le resultat obtenu est 363.

    Les mots extraits appartiennent sont des adjectifs et des noms du discours.


  • Quelle commande permet d'extraire a la fois les mots se terminant par -able et ceux se terminant par -ible ?
    La commande est : egrep "(a|i)ble$" dico.txt

    lien vers resultat



Partie 2 : XML

1 - Construire des entrees structurees de dictionnaire.

Les entrees reperees dans le TLF rejoignent toutes la famille des plantes.

L'arborescence de donnees definie pour mon dictionnaire est schematisee ci-dessous :

Voici une copie d'ecran representant une partie du fichier xml structure de mon dictionnaire :