Site final du projet encadré

Vous trouverez ici les étapes effectuées pour la réalisation de notre script final :

Comme nous l'avons précisé précédemment, nous avons recherché des urls contenant les occurences souhaitées.
Ces urls sont stockées dans des fichiers sous format txt.
Le nom de ce fichier sera similaire à l'occurence étudiée.
[ Cette information est nécessaire au traitement des contextes ]

La première étape de notre script fût de créer un tableau contenant les urls étudiées avec leur lien direct et leur numérotation. | voir image
| voir lien

Notre seconde étape fût d'améliorer le script en traitant plusieurs fichiers urls
Ceci nous permet de traiter tous nos fichiers urls à la fois.
| voir le script

La troisième étape pour l'élaboration de notre script fût l'aspiration sur machine et conversion en texte brut des urls.
Cette conversion nous permet, par la suite, d'effectuer des traitements directement sur les fichiers et non plus de travailler avec les urls.
| voir le script

Cette étape fût l'ébauche créant le fichier html de sortie.
Vous pourrez y remarquer les différentes colonnes contenant :
* la numérotation des urls,
* le lien vers ces urls,
* la page aspirée en html
et
* la page dump en texte brut.
| voir le tableau

Après avoir effectué ces différentes étapes, nous avons commencé à ajouter des commandes dans notre script pour automatiser les tâches.
Nous avons mis wget[qui devient curl dans notre script final] et lynx.
-> {La fonctionnalité de wget est d'aspirer les pages web.}
-> Lynx nous permet de récuperer les informations sur la page aspirée. Utilisant l'option dump, lynx ne gardera que le texte contenu dans les pages aspirées.
| voir le script

Après avoir effectué ces transformations, nous désirions encoder les pages dump en UTF-8 si elles ne l'étaient pas à l'origine.
Pour faire cette conversion, nous avons utilisé ICONV.
Nous avons effectué plusieurs étapes pour finaliser cette conversion.
L'utilisation des boucles nous permet de traiter les cas que nous sommes susceptibles de rencontrer :
* ne pas lancer la conversion si le texte était déjà en utf-8
* voir si l'encodage de la page dump est suportée par la commande iconv,
-> si c'est le cas, nous lançons la conversion de cete page en utf-8
-> si ce n'est pas le cas, la conversion ne sera pas efectuée et ces pages seront traitées manuellement.
| voir le script

La dernière étape effectuée sur notre script fût de créer les contextes de nos occurences.
Nous avons décidé de créer deux fichiers pour le contexte.
-> L'un étant sous format txt
-> L'autre étant sous format html où l'occurrence analysée est mise en gras.
Pour effectuer les contextes, nous avons utilisé la fonction egrep.
Cette commande permet de rechercher une occurence dans un fichier.
Nous avons utilisé plusieurs options d'egrep pour créer les fichiers contextes :
* l'option -i nous permet d'ignorer les majuscules/minuscules du motif recherché dans le fichier
* l'option -n nous permet de numéroter les lignes contenant l'occurence.
* l'option -A [nb] nous permet d'afficher le nombre de ligne suivant l'occurence.
* l'option -B [nb] nous permet d'afficher le nombre de lignes précédant l'occurence.
Le nom des fichiers url étant similaire à l'occurence recherché fût stocké dans une variable.
Ceci nous a permis de n'avoir qu'un seul traitement et de ne pas utiliser de boucles.
egrep s'est appliqué à la varible $motif. :D
Après avoir effectué ces analyses, nous avons utilisé le cichier pour créer le fichier html.
Nous avons utilisé la commande sed pour faire un recherche|remplacement du motif et ajouter à ce motif des balises.
Cette commande nous a permis de mettre en gras les motifs étudiés.
| voir le script

Lien vers le script final

Lien vers la page détaillant les mots étudiés.