Site final

PRESENTATION DU SCRIPT

Pour mener à bien ce projet, il est nécessaire de récolter des données textuelles que je vais par la suite analyser.
Pour cela, tout au long du semestre nous avons mis au point un script bash capable d'aspirer des pages web grâce à des URLS que j'ai préalablement récoltés afin de les mettre dans un tableau HTML que vous pouvez retrouver ici.

Ce script a donc pour but d'aspirer des pages web et de leur faire subir un certain nombres de traitements afin d'en extraire in fine des fichiers au format texte brut.
Certains de ces fichiers contiennent l'intégralité des pages aspirés au format texte brut, d'autres contiennent les contextes d'apparition du mot choisi à savoir "race humaine". Ces derniers vont être sans doute plus pertinents à analyser puisqu'il continnent l'environnement d'apparition du motif. Cela nous permet donc de savoir quand est-ce qu'est employé cette occurence et ainsi de comparer entre le français et l'anglais.

Vous pouvez retrouver les différentes étapes de la consitution de ce script ainsi que la mise en place des traitement sur le blog en cliquant ici.

Ainsi notre script final est le suivant : Script

La vie multilingue des mots sur le Web

PRESENTATION DU SCRIPT