Parole... Palabra... רוביד

Patchwork de scripts..

Ici est présenté un certain nombre de scripts qui permettront au final de créer un tableau de liens sur le mot "parole" en français, en espagnol et en hébreu.
Au fur et à mesure de cette présentation, vous verrai que nous avons été confronté à de nombreux problèmes notamment au niveau de l'encodage de l'hébreu.. Que de soucis mais bon un bon exercice pour apprendre..

Arborescence de travail

Bien avant d'entamer notre projet, il nous a fallu créer une arborescence de travail pour mieux nous organiser tout au long du semestre..
Rien de tel que la commande mkdir pour créer de nouveaux dossiers.. ici nous aurons les dossiers suivants:
URLS, PROGRAMMES, PAGES-ASPIREES, DUMP-TXT, CONTEXTES, IMAGES..


Arborescence de Travail

Tableau à 2 colonnes

Maintenant que nous avons la base de notre travail, on doit se familiariser avec le langage bash.. Langage nouveau pour la plupart..
Pour cela, on réalise un tableau à deux colonnes :
une colonne avec un compteur
i=1
let"i+=1"

cette ligne de commande est embriquée dans une boucle for..
et une deuxième colonne avec la liste des différentes urls...


Tableau à deux colonnes

Pages aspirées

Afin de conserver le contenu de chaque page de nos urls, nous les avons aspirées pour qu'elles soient stockées localement sur nos pc..
Pour cela, la commandewget ou curl
est utile. son option -o désigne le fichier de sortie.


Pages Aspirées

Dump

Que faire des images, des divers liens inscrits dans nos pages et autres..!
Ce qui nous intéresse réellement c'est le texte brut, non?
Alors on y va.. on utilise la commande lynx et voila on a le texte brut..
Et nouveauté cette année, on l'a même encodé en utf-8..


Dump

Contextes

Pourquoi pas aller plus loin!
Et si nous ne retenions que le contexte autour du mot parole.. Intéressant, non?
Et bien la commande egrep est là pour nous.. Mais bon pas pour l'hébreu..
Nous devons utiliser un script minigrepmultilingue pour que cygwin reconnaisse et travaille sur les caractères hébraïques...


Contextes

Petits bonus rien que pour vous

Comme nous avons nous-même galéré sur la commande basename, nous vous expliquons son fonctionnement en détail.
Comment avoir un titre de fichier sans extention ?


Basename

fichiersans est la variable une fois modifiée.. La commande basename permet en effet de retirer l'extension d'un fichier, ici pour la variable $fichier on enlève l'extension ".txt"

Scripts à télécharger

Script final

minigrepmultilingue français/espagnol
minigrepmultilingue hébreu