Etapes du traitement

Notre travail s'organise en 5 étapes. En cliquant sur chacune d'entre elles, vous afficherez dans un nouvel onglet les scripts correspondants commentés en détail. Etant totalement novice dans tous les langages utilisés dans ce projet, j'ai tâché d'expliquer un maximum de la base, en supposant que le lecteur ne savait pas de quoi je parle (je pense notamment aux étudiants de l'année suivante ^^)

Vous pouvez télécharger le script intégral créant le tableau de ressources, les pages .html de contextes et les fichiers txt pour les représentations en nuage ici. Il se lance avec la redirection d'input décrite à l'étape 1.


Etape 1 : Préparation de l'environnement, création d'un tableau .html contenant une première colonne listant les URLs sélectionnées [commandes mkdir, read, redirection d'input, boucle for]

Etape 2 : Enregistrement du contenu de chaque page web en local pour pouvoir les exploiter. Tableau = colonne +1 [commande wget, redirection d'output, mise en place d'un compteur]

Etape 3 : Extraction du texte pur des pages web. Tableau = colonne +1 [commande lynx-dump]

Etape 4 : Sélection du contexte environnant le mot choisi, le filtre s'est fait à partir des 2 lignes précédentes et des 2 lignes suivantes. Tableau = colonne +1 [commandes egrep, sed, condition if]

Etape 5 : Présentation visuelle de la fréquence des mots relevés sous forme de nuage [commandes cat, iconv]

Outils

Nous avons utilisé des outils et des ressources disponibles que nous tenons à citer ici :
Nos scripts ont intégralement été écrits en bash et lancés à partir de Cygwin (émulateur Linux sur Windows). Des connaissances dans ce langage ont donc été nécessaires, mais ont également été sollicitées des connaissances en :