Commandes Unix

Quel est le but?

      Le but est de décortiquer un texte en nombre de mots, lignes voire cibler certains termes.

Comment ça marche?

      On va utiliser les expressions régulières (connues sous le nom egrep ).

Pour connaître les commandes de base des expressions régulières, Cliquez ici !

     Pour apprendre à se servir de la modèlisation XML, nous avons ouvert le fichier Duchn-utf8.txt ainsi que le programme Terminal sous "ubuntu" (linux) pour cibler certains éléments du texte.

Voici les captures d'écran de différents tests ...

NOTA BENE : Par la suite, nous allons parler de commandes à effectuer. Il ne faut pas oublier que les expressions régulières sont de la forme egrep "commande" fichier.txt
  • Pour trouver le nombre de mots ouverts dans ce fichier, on utilise la commande wc
  • Notez que les trois nombres correspondent au:

    1. nombre de lignes dans le texte
    2. nombre de mots
    3. nombre de bits

     

  • Pour trouver des mots contenant "aristo", on utilise la commande \b suivie de ce que l'on souhaite cibler (ici, aristo)
  •  

  • Pour trouver tous les mots finissant en -able , on utilise la commande \b précédée de ce que l'on souhaite cibler (ici, -able)
  •  

  • Pour trouver les mots finissant à la fois par -able ou -ible, on utilise la commande able\b|ible\b
  •  

  • À partir de cela, nous avons compté le nombre de termes se finissant par -able avec la commande wc -l
  •  

  • Enfin, nous avons découpé le texte avec un mot par ligne, ce qui a donné la commande suivante:
  •  

     

     

     

    Modélisation XML

     

          Nous avons trouvé 10 mots de notre choix sur Twitter #1jour1mot puis nous avons construit notre dictionnaire. Enfin, nous l'avons modélisé sous forme d'arborescence.

    Voici les 10 mots trouvés ainsi que leurs définitions:

    • Cauteleux (adj.) : Qui agit de façon détournée et sournoise. Syno. : hypocrite, sournois
    • Anomie (n. f.) : Désorganisation sociale résultant de la disparition des valeurs communes dans un groupe, une société
    • Ahonter (v.tr.) : [Vieux] Couvrir quelqu'un de honte.
    • Philippique (n.f.) : [Littér.] Discours ou écrit violent contre une personne
    • Cautèle (n.f.) : [Vieux, littér.] Prudence rusée, finesse.
    • Idiosyncrasie (n.f.) : Ensemble des dispositions affectives et intellectuelles qui composent la personnalité d'un individu
    • Braguard/Bragard (n. & adj.) : [Vieux, rare] Personne qui aime les plaisirs.
    • Mamelu, mamelue (adj.) : [Fam. plaisant.] Qui a de grosses mamelles, de gros seins.
    • Agonir (v.tr.) : [Rare] Injurier, insulter.
    • Fruitif (adj.) : Qui apporte la jouissance.

    Notre dictionnaire est de la forme:

     

    Pour finir, voici la représentation de notre arbre: