Historique

Première étape: CREATION DE L'ENVIRONNEMENT DE TRAVAIL

Ce premier pas, d’apparence anodine, donne tous son sens à la notion de "projet encadré".
D'une part, il remet bien en place les notions de répertoire et de chemin et introduit les premières gammes sur cygwin. D'autre part cet environnement s'est révélé être un cadre efficace sur l'ensemble du projet. Si nous l'avons ponctuellement enrichi de petites verrues (listes de chemins, pense-bêtes divers, programmes annexes), ces verrues ont facilement trouvé leur place dans ce cadre.
Premières difficultés avec cygwin, le cygwin de Paris III étant plus riche et performant que celui de nos ordinateurs portable. Mise à jour sur INTERNET et au petit bonheur la chance des cygwins personnels.

Deuxième étape: PREMIER TABLEAU HTML

Ce premier tableau reprend simplement la liste des URLs et les rend "cliquables" par l'utilisation de la balise <a href> . La structure de ce premier programme est simple: Il s'agit d'une boucle sur "i", indice de ligne. Cette structure sera conservée dans les étapes ultérieures, chacune d'elle consistant à rajouter une nouvelle fonction dans la boucle et à compléter l' instruction d'affichage.On créera un tableau pour chaque langue.(1er tableau)

Troisième étape: ASPIRATION DES PAGES WEB

Le principe est de télécharger des pages Internet afin de pouvoir les consulter hors connexion.
Pour ce faire, nous avons introduit dans la boucle de notre programme la commande wget pour aspirer les pages, et modifié la ligne de programme traitant l'affichage. Ainsi apparait la seconde colonne du tableau, composée des liens permettant d'accéder aux pages aspirées.Pour réduire la taille des cellules, on remplace l'affichage des liens des deux colonnes par un numéro.
Là aussi on note des difficultés pour installer wget sur les portables.(2ème tableau)

Quatrième étape: EXTRACTION DU TEXTE

L'opération consiste à extraire le texte brut des pages aspirées et à le stocker dans un répertoire "DUMP", lui aussi adressable à partir de la troisième colonne de notre tableau principal. La encore, introduction d'une nouvelle instruction (lynx -dump -nolist )et modification de la ligne traitant des affichages.(3ème tableau)

Cinquième étape: RECUPERATION DES CONTEXTES

Pour apprécier les contextes on recueille, à partir des fichiers DUMP, les lignes où figurent notre mot "point" (ou "points") dans des fichiers CONTEXTES. Pour ce faire il convient de modifier notre programme à 3 endroits:
-Mise en place d'une variable "motif" pour pouvoir introduire le motif du contexte.
-Introduction, dans la boucle du programme de l'instruction egrep permettant de saisir le contexte autour du motif.
-modification de la ligne traitant des affichages afin de pouvoir appeler chaque contexte depuis le tableau principal.
(4ème tableau)

Sixième étape: AMELIORATION DU SCRIPT

Le script de base permet de créer un tableau tout à fait présentable, cependant, on se permet quelques modifications afin de réaliser un script final bien meilleur.On utilisera par exemple la balise <style> pour changer la couleur de certaines cellules du tableau ou bien alors celle de la bordure.En effet, la balise <border-color> étant interprétée différemment selon que l'on ouvre la page avec Internet Explorer ou bien avec Firefox, la balise <style> s'est révélée fort intéréssante.
Chaque tableau sera divisé en plusieurs sous tableaux, ce qui permettra de représenter les différents sens du mot "point".Il sera nécessaire de créer dans notre environnement de travail , un nouveau dossier contenant les liens "URLS_2" .On créera à l'intérieur, deux sous dossiers "FRANCAIS" et "ANGLAIS" dans lesquels on mettra les fichiers textes. Chaque fichier texte contiendra une liste de liens pour un sens donné. Les numéros affichées sur le tableaux, des liens, pages ,dump et contextes n'iront plus de 1 à 25 mais de 1 à 50.(tableau final)

Septième étape: LA FIEVRE DU JEU: EXPLORATION DES LOGICIELS D'AFFICHAGE

Pour tous ces logiciels il faut préparer un fichier rassemblant l'ensemble des contextes. On a donc écrit un petit programmes" fusion-contexte.sh".
-Wordle donne le résultat le plus spectaculaire et indique par sa représentation graphique, la fréquence des mots du contexte de "point".
-Tagcloud Builder donne le même résultat, en moins spectaculaire.Pour cela il suffit charger un liste de mot avec son nombre d'occurences dans le corpus.nous utiliserons l'utilitaire Dico. pour cette opération.
-Treecloud nécessite un fichier sans ponctuation. On a donc écrit un petit programme "sansponctuation.sh" pour lequel la commande " tr "[.:,*'-;><?=_«!|]" ' '| tr '"' ' ' " n'a pas été facile à reconstituer. Cette application est plus intéressante puisque l'arbre obtenu révèle des branches vaguement sémantiques.
-Le trameur permet, à partir d'un texte, de d'extraire des instances de patrons.

Huitième étape : MISE EN FORME

Cette dernière étape consiste à la réalisation du site. Celui ci sera réalisé à partir d'un modèle de base qui sera modifié à l'aide d'un éditeur HMTL (NVU) et d'un éditeur de texte (notepad++) pour en arriver au site final.

La vie des mots sur le web