Cygwin

Sommaire :
Partie I
I.1) Exercice sur le "Père Duchesne" : [mots commençant par] [qui parlent de] [majuscule] [forme négative] [-er]
I.2) Etude morphologique : [Nombre de mots] [-able] [nombre de -able] [-eux] [-able et -ible]
Partie II
II.1) Construire des entrées de dictionnaire : [voir le travail]



I.1) Exercice sur le "Père Duchesne"
On placera les options de comptage ou d'extraction au choix (-c/-ci/-i/-ni...), dans les fichiers résultat la première ligne sera le compte suivra ensuite les extractions.

    Ecrire une commande qui permet de filtrer les lignes contenant des mots commençant par :
- "citoy" : {egrep -ci "\bcitoy" duchn.txt} [Voir]
- "aristo" : {egrep -ci "\aristo" duchn.txt} [Voir]
- "bougre" : {egrep -ci "\bbougre" duchn.txt}[Voir]


    Ecrire une commande qui permet de filtrer les lignes contenant des mots qui parlent de :
- "sans-culottes" : {egrep -ci "(S|s)ans-culotte" duchn.txt}[Voir]
- "danger" : {egrep -ci "\bdange(r|u)" duchn.txt} Pour prévoir les cas de dangeureux/reuse(s)-ment/erosité, mais pas vendanger.[Voir]
- "patrie" :
{egrep -ci "patri(e|o|a)" duchn.txt} Pour prévoir les cas de a- patrie(s)/ot -e(s) -isme(s) -ique(s)/arche(s) et pas patrimoine
[Voir]
- "liberté" : {egrep -ci "\blib(r|é|e)" duchn.txt} Pour prévoir les cas de libre(s) -ement, liberté/ération/éralisme/éralisateur, mais pas délibérer.[Voir]
- "temps" : {egrep -ci "temp(o|s)" duchn.txt} Pour les cas de temporaire(s)/ement mais aussi longtemps ou printemps[Voir]
- "République" : {egrep -ci "r.publi(q|c)" duchn.txt} Pour prévoir l'accent et la famille de mot anti-/pré- république(s) -ement /cain(s) -ne(s)[Voir]
- "trahison" : {egrep -ci "\btra(hi|.tr)" duchn.txt} On prévoit ainsi les cas de trahison(s) et de traîtr/traitr -ise -e(s) -ement [Voir]
"temps" est dans ce texte utilisé avec plusieurs sens : temps temporel ; actuel (il est temps) ; temps météorologique ; époque ("temps de malheur") ; et comme morphème dans "longtemps" et "printemps".

    Ecrire une commande qui permet de filtrer les lignes contenant une majuscule :
{egrep -ci "\*" duchn.txt} Comme les majuscules dans ce texte sont marquées telles que *X alors il suffit de rechercher les motifs ayant un astérisque devant.[Voir]


    Ecrire une commande qui permet de filtrer les lignes contenant une forme négative :
{egrep -ci "(\bne\b|\bn')" duchn.txt} On recherche la particule qui marque la négation en français à savoir "ne". [Voir]


    Ecrire une commande qui permet de filtrer les lignes contenant des mots qui finissent par "er" :
{egrep -ci "er\b" duchn.txt}                                                                                                                [Voir]

Retour au sommaire


I.2) Etude morphologique

{egrep -c "\b[A-z]" dico.txt} On recherche tout motif qui commence par une lettre comprise entre A et z, il suffit de compter pour obtenir le nombre total de mots dans le dictionnaire.[Voir]
{egrep -i "able\b" dico.txt} On recherche tout les motifs "able" qui terminent un mot, et on utilise la fonction -i pour extraire les mots. [Voir]
{egrep -c "able\b" dico.txt} On recherche tout les motifs "able" qui terminent un mot et on utilise la fonction -c pour compter. [Voir]
{egrep -c "eux\b" dico.txt} On recherche tout les motifs "eux" qui terminent un mot et on utilise la fonction -c pour compter. [Voir]
{egrep -i "[ai]ble\b" dico.txt} On recherche tout les motifs "able" et "ible". [Voir]

Retour au sommaire


II.1) Construire des entrées structurées de dictionnaire

a) Naviguer dans le TLFI et choisir 10 entrées. Dans notre cas nous avons opté pour des exemples fleuris (cliquez sur les noms pour obtenir la défintion TLFI) :
balisier
bégonia
bignonia
campanule
chèvrefeuille
clématite
datura
edelweiss
liseron
passiflore

b) Dessiner une arborescence pour décrire ces données :

c) Construire une représentation structurée des entrées par un balisage XML. [voir le txt balisé]
J'ai ensuite changé l'extension du fichier .txt en .xml. d) Verfifier la bonne formation du fichier complet et éventuellement apporter les corrections nécessaires.
En ouvrant le fichier avec firefox, celui-ci a rencontré des problèmes quant à la lecture de mon fichier, en effet certaines de mes balises étaient non conforme au balisage XML : "< ARG+ANAL >" ; "< EXEMPLE/CITATION >", après correction de ces balises avec des caractères non-reconnus (+ et /) le navigateur m'a encore fait part d'erreurs : comme l'oublie d'une balise de fermeture :

Une fois les corrections effectuées j'ai donc obtenu un fichier correct de forme : [voir le .txt] [voir le .xml]


Voilà comment j'ai appris à utiliser CYGWIN et l'XML ! =)

Retour au sommaire