Projet "La vie des mots sur le web"

Complément ludique : des nuages de mots


(retour page d'accueil du cours)


Préambule

Pour commencer cette séquence, on commencera par lire l'analyse réalisée à la suite des débats entre les candidats au cours de la campagne présidentielle américaine 2008 : Lexical Analysis of 2008 US Presidential and Vice-Presidential Debates — who's the Windbag ? : une rafale de nuages !!!! .

On pourra ensuite tester Wordle, application en ligne qui permet de faire de jolis nuages de mots : "Wordle is a toy for generating “word clouds” from text that you provide. The clouds give greater prominence to words that appear more frequently in the source text. You can tweak your clouds with different fonts, layouts, and color schemes. The images you create with Wordle are yours to use however you like. You can print them out, or save them to the Wordle gallery to share with your friends".

Idem avec Tagcloud Generator


De la préparation du corpus de travail (issu des étapes d'automatisation) aux nuages !

Phase 1

Dans ce qui suit nous utilisons les ressources construites par P. Marchal disponibles sur cette page. Plus précisément, nous désignerons par LE CORPUS la concaténation de l'ensemble des 28 textes en français de la colonne DUMPS de cette page. Le résultat de cette concaténation (UTF-8) a été transcodé dans un nouveau fichier (iso-8859-1) pour être soumis à 2 programmes (fournis par Philippe Gambette sur cette page) :

Utilisation de TagCould Builder : "Ce petit programme gratuit consiste à charger une liste de mots avec leur nombre d'occurences dans un texte, fournie par exemple par l'utilitaire gratuit Dico de Jean Véronis".

Utilisation de TreeCloud : "Le programme ci-dessous, TreeCloud, permet de construire de tels nuages arborés pour un texte quelconque. Les intérêts sont variés : visualisation rapide du contenu global d'un texte (rapport, livre...), analyse littéraire, comparaison de textes par comparaison de leurs nuages arborés. ".

Si on ne garde que les contextes contenant la forme "nature", on obtient : le nuage NATURE (via TagCould Builder), et le nuage arboré NATURE :


(via TreeCloud)

Présentation de TreeCloud faite à Dresde (Allemagne) pour l'IFCS'2009 :
Visualising a text with a tree cloud

Phase 2

Nous utilisons ci-dessous le programme "Le Trameur" :

Après chargement du CORPUS, on extrait des instances du patron ".* NOM .*" (i.e. les séquences de 3 termes dont le second est un NOM et dont les autres termes sont de nature quelconque) et contenant la forme "nature" :

On calcule ensuite les polycooccurrents de la forme pôle "nature" :


(param 5 8)


(param 5 5)

Phase 3

On pourra aussi regarder l'application en ligne Calculatrice Sémantique (développée par Hubert Wassner) qui permet de représenter des mini cartes sémantiques. Dans l'exemple qui suit, nous avons testé cette application sur une liste réduite de mots extraite du dictionnaire construit ci-dessus à partir des contextes de "nature".

Lectures autour de ce type de représentation : Graphe sémantique, Analyse Sémantique Automatique, Semantic Maps, "Automatic Meaning Discovery using Google" (Paul Vitanyi et Rudi Cilibrasi)).