M1 TAL - PROJET ENCADRÉ

Script

Vous pouvez voir le script en cliquant ici !

Création des sous-dossiers

Avant d’écrire le script, nous avons créé les sous-dossiers nécessaires sur chacune de nos machines respectives, dans un dossier dédié au projet.

Les sous-dossiers ont été nommés :

- URLS, le fichier texte contenant les urls à traiter;

- PROGRAMMES, le script en format sh;

- DUMP-TEXT, le contenu textuel de chaque url;

- PAGES-ASPIREES, les pages aspirées de chaque url;

- CONTEXTES, le contexte de chaque motif;

- TABLEAUX, le tableau en format html s’affichant les résultats par le script;

- IMAGES.

Principe général du script

- Trois variables spécifiées lors du lancement du script depuis le Terminal: le dossier des URLS, le dossier des TABLEAUX, et le motif.

- On parcourt le fichier, URL par URL, grâce à l’implémentation d’un compteur.

- On crée un tableau, où on va traiter une URL par ligne.

- On vérifie le code HTTP de chaque URL, s’il est égal à 200 on peut passer à la suite.

- On vérifie alors si l’encodage est en UTF-8, si c’est le cas on peut traiter l’URL grâce à différentes opérations ( Lynx Dump, Contexte, Fréquence Motif, Contexte HTML, index hiérarchique, bigramme ) et en inscrire le résultat dans le tableau.

- Si l’encodage n’est pas égal à UTF-8, on tente de le récupérer avec egrep, en spécifiant un set de caractères à identifier.

- Si l’encodage repéré s’avère être en UTF-8, alors on le traite avec les mêmes opérations déjà effectuées.

- Si l’encodage n’a pas été reconnu, on tente de le faire grâce à iconv.

- Si iconv donne une réponse non-vide, l’encodage a été reconnu et peut donc être traité grâce aux mêmes opérations.

- Si le code HTTP de base, n’est pas égal à 200, l’URL est considérée pourrie et ne peut être traitée.

Pour une explication détaillée du script, se référer à la section RÉALISATION DU SCRIPT, dans notre blog.

Afin de s'éclaircir la logique globale de notre script, nous présentons aussi le graphe ci-dessous.