A TAL PROJECT by Larisa Nadel

Les nuages de mots

Grâce à l'outil en ligne Wordle.net on a pu former des "nuages de mots" pour les textes récopilés en cours de travail de notre programme. En fait, l'activité de création des ces nuages, basée sur la fréquence de chaque mot dans le texte, est esthétique plutôt que scientifique. Voici quelques exemples:

Pour l'anglais:

Pour le français:

Et pour le russe:

En effet, ces nuages ne donnent pas trop d'information à analyser. On voit que les textes des tous les trois langues, où le verbe "googler" est utilisé, semblent contenir la léxique informatique... C'est bien logique, mais c'est pas du tout une nouveauté pour quelqu'un qui a trouvé ces textes et qui a réfléchi donc sur leur sources. En plus, on n'a pas aucune possibilité de se debrasser du méta-texte qui est présenté sur Internet: le mot si fréquente comme "message", qui apparaît en tous les trois nuages, est en plupart des cas un marquer d'organisation du texte dans divers forums.

Les arbres formés à la base d'un autre outil, Treecloud, ne sont pas disponibles pour le russe. Pour l'anglais et le français ils se représentent de la manière suivante:

L'anglais:

Le français:

Le problème c'est qu'il ne sont pas plus informatifs que les nuages, bien qu'ils doivent montrer la proximité sémanthique des mots. En effet, on peut remarquer que, selon le Treecloud, il s'agit bien de la recherche (entre les mots importants on apperçoit "find", "search", "trouver", "decouvert"...) mais c'est pas ce qu'on cherche exactement pour réaliser une analyse linguistique!