Présentation du projet
Le projet "la vie du mot jouer sur le web" consiste à créer un corpus multilingue en faisant un traitement automatique.

1. Une fois le mot choisi, nous sélectionnons manuellement 50 URLS pour chaque langue qui contiennent des occurrences du mot choisi. Ces URLS sont stockés dans un fichier dont nous nous serviront pour chacune des étapes suivantes. Le traitement automatique est lancé.

2. La deuxième étape consiste à aspirer les pages pour que nous stockions les données localement. Ceci est possible grâce à la commande CURL.

3. Ensuite nous convertissons des fichiers textes à partir des fichiers HTML avec la commande LYNX.

4. Pour la dernière étape nous filtrons le texte pour ne faire sortir que les lignes avec les occurrences du mot. Nous réalisons cette étape en écrivant une expression régulière que nous exprimons avec la commande EGREP.

Grâce à toutes ces étapes nous pouvons créer des nuages de mots pour faire un analyse linguisitique.