Présentation visuelle de la fréquence des mots relevés sous forme de nuage :
La 5e étape finalement est un peu la récréation du projet...une pause ludique bien méritée :)
Nous avons utilisé le programme du site Wordle. Celui-ci
peut prendre comme source un texte qu'on colle dans son champ de saisie.
Concaténation des fichiers.txt de contextes en un seul fichier.txt
Si nous voulons faire un nuage de tous les contextes par langue et par sens, il nous faut donc concaténer tous
les fichiers de contextes extrait des urls dans un autre fichier.txt qui va servir pour les nuages.
Pour celà, une ligne de commande qui s'effectue toujours à l'intérieur des boucles :
En faisant cette concaténation, on obtiendra un .txt qui réunit tous les fichiers.txt de contexte par sens. On peut également vouloir
faire une concaténation des fichiers.txt de contextes par langue. Auquel cas on écrira la commande suivante :
Absolument enfantine et intuitive ! Lorsqu'on obtient une esthétique satisfaisante, on fait alors une capture d'écran (logiciel utilisé :
FastStone très sympa), on enregistre en jpg sous un nom suffisamment représentatif pour pouvoir
la retrouver facilement.
C'est un OpenSource qui donne des résultats esthétiquement épurés et très agréables à visionner. Toutes les explications concernant son
installation sont à lire sur la page d'accueil (une installation préalable de Python et de Split Tree notamment est nécessaire).
Il faut seulement veiller à ce que le texte qu'on lui fournit soit en ISO-8859-1 (Latin-1). Puisque nous avions converti les fichiers de sortie
DUMP en UTF-8, les fichiers.txt de contextes extraits sont en UTF-8, ainsi que leur concaténation dans les fichiers nuages.txt. Nous
avons donc ajouté quelques lignes de commande afin de créer de nouveaux fichiers.txt convertis en Latin-1. La commande utilisée
est ICONV. Nous avons voulu représenter les nuages à partir des fichiers de contexte par langue, sans nuance de sens cette fois-ci. Ce qui
nous donne ça :
Pour insérer une image, utiliser la balise suivante :
<img src="Français_ctxt.jpg"/>
Notons que la balise se suffit à elle-même et qu'elle
n'a pas besoin d'être fermée. C'est pourquoi on aura / à la fin de la balise, pour respecter les règles du XHTML concernant les balises non fermantes. (c'est
la même chose qu'avec <br/>)