Sur la console de Cygwin, nous donnons le nom du fichier de sortie en html.
 La commande echo permet d'afficher sur la console Cygwin
les informations contenues entre guillemets.

création des entêtes

premier boucle qui parcoure  les urls ;création des sous répertoires , le chemin relatif où seront stockés les sous dosisers
   

La boucle for ... in va permettre l'application des commandes qui suivent à chaque fichier listé ayant l'extension .html.
Introdution des commandes :wget pour l'aspiration des pages , lynx avec l'option -dump va permettre de ne garder que le texte. Cette commande est utilisée sur les fichiers html contenus dans la variable $fic et les enregistrent avec l'extension .txt

 

Recherche du contexte autour du motif, utisation de la commande egrep

 

 

 

encodage des caractéres diffirents de utf-8 sinon si l'encodage n'est pas trouvé on le tape à la main.

 

                                                                                                                                                                                                                                   

Introduction de la commande incov pour la conversion du  fichier .txt; création des fichiers par langues                                                                                                                                                      

On boucle la première boucle, le tableau se termine et on ajoute  la dernière balise html. Pour chaque fichier html contenu dans $fichier on associe l'adresse du fichier txt 
   

Fin du script vous le  télécharger ici

Les scripts
© 2011