TAL [CLA2T/SYLED & U. DE PARIS 3, Sorbonne nouvelle]

Fils de Presse...

 

Ce projet est une des 2 composantes du projet "Corpus Chronologique Le Monde". Ce dernier est composé de 2 parties :

Le Monde En Surface : architecture (présentée infra) construite pour traiter les fils RSS mis à disposition sur le site Web du journal Le Monde (d’autres fils sont aussi traités dans cette architecture, en particulier celui du site de l’AFP) ;

Le Monde Profond : architecture (présentée ici) mise en œuvre pour construire et analyser un corpus chronologique de la version électronique du journal Le Monde.

Présentation du projet (janvier 2006) : "Le Monde En Surface, Fils de Presse et Archivages des Fils" au Format PDF.
Voir aussi ici : Master pluriTAL, cf projet Nuages (texte+slides+cours)

 

Sommaire

 

  1. Préambule
  2. Les projets "Fils de Presse" et "Plateforme d'archivage des fils"
    1. "Plateforme d'archivage des fils"
    2. "Fils de Presse"
    3. Prototype "Fils De Presse" et Plateforme d'archivage des fils
  3. Liens externes (projets divers)
  4. Lectures
  5. Développements en cours

Préambule

 

Le projet "Fils de Presse" prend appui sur un programme qui est une implémentation en Perl d’un tutorial rédigé par Jack Herrington sur le site d’IBM :

 

"Use PHP and XSL to create a DHTML link graph, Build an RSS parser that creates a keyword list with word frequencies[1]", par Jack Herrington, Senior Software Engineer, Leverage Software, 4 octobre 2005. (désormais note [Herrington, 2005])

 

Abstract : In this tutorial, you learn to build a link graph with XML, PHP, and JavaScript code. Link graphs are paragraphs of keywords in which the font size of each word is determined by some data value -- in this case, the frequency of the term. The more often the term occurs, the larger the font size of the word. This tutorial shows how to build an RSS parser that in turn builds a keyword list along with the word frequencies. It also demonstrates how to use XSLT to create an HTML page that shows the link graph and relates its term to its original article.

 

On trouve sur le site d'Amazon, une application similaire à celle décrite dans le tutorial précédent : il est possible de construire une concordance sur le contenu d'un livre présenté sur le site d'Amazon ; pour lancer cette concordance, il suffit de placer la souris au dessus de l'image de la couverture du livre visé puis de sélectionner le programme "concordance" qui apparaît dans le menu "popup". Exemple : présentation du livre "In the Beginning...was the Command Line", par Neal Stephenson, 1999 à cette adresse :
"In the Beginning...was the Command Line", sur Amazon
Le menu contextuel (en passant sur l'image de couverture) donne accès à un programme " Concordance " qui construit dans un premier temps un nuage de mots (les 100 mots les plus fréquents du livre) :
"In the Beginning...was the Command Line", le nuage de mots (concordance)
chaque mot est ensuite cliquable et donne ainsi accès aux contextes du mot visé (ici le mot commande):
"In the Beginning...was the Command Line", les contextes (concordance)

Les projets "Fils de Presse" et "Plateforme d'archivage des fils"

 

Le projet est composé de 2 modules.

Le premier (" Fil(s) de presse ") correspond au module permettant de traiter un fil de presse donné (au format RSS) et de construire des traitements sur le contenu de ce fil (au départ, un nuage de mots).

Le second (" Archivage des Fils de Presse ") correspond au module permettant d'archiver les fils de manière continue et automatique afin de constituer la mémoire de ces fils.

"Plateforme d'archivage des fils"

 

Un processus expérimental a été mis en place pour archiver les fils de presse. L'idée est la suivante :

- on a à disposition le corpus Le Monde depuis Avril 2003 ("le Monde PROFOND")

- on peut aussi avoir accès au fils RSS publiés quotidiennement ("le Monde EN SURFACE")

En archivant régulièrement les fils on a donc à portée de main le PROFOND et la SURFACE. Le processus mis en place aspire régulièrement les fils visés et créé des pages de navigation pour donner à voir les données archivées et les nuages de mots créés sur chacun des fils (cf infra le projet "Fil(s) de Presse" : programme construisant un nuage de mots à partir des contenus textuels présents dans un fil donné). Les données sont visibles provisoirement ici :

http://sfmac.no-ip.com/fils-presse-arch/index.xml (accès restreint)

L'archivage mis en place concerne les fils du journal Le Monde (cf infra) et celui de l'AFP . La figure suivante donne une représentation de l'organisation de cet archivage :

Figure 0 : Archivage des fils, arborescence

Le processus d'archivage est déclenché toutes les heures et produit à chaque lancement un archivage des fils, des pages de navigation et les données nécessaires pour construire les nuages de mots.

"Fils de Presse"

 

Le programme construit prend en entrée des fils RSS disponibles sur des sites de presse (Le Monde[2], Le Figaro[3], Libération[4]…) et produit des résultats donnant à voir :

 

-         des nuages de mots

-         une présentation des fils scrutés au format HTML et des comptages lexicométriques à partir des contenus textuels des descriptions des articles (disponibles dans les fils)  mis à la disposition par les journaux.

 

Les figures suivantes présentent les différents types de nuages construits :

 

Figure 1 : nuage de mots sans lien

Dans cette première figure, le nuage de mots donne à voir l’ensemble des mots présents dans les descriptions des articles des fils d’un journal en ligne à un moment donné (ici Le Figaro).

 

Figure 2 : nuage de mots avec liens

Dans la seconde, on peut voir un nuage similaire dans lequel chaque mot donne accès via un clic aux contextes dans lesquels ce mot apparaît (colonne de droite) : le contexte est constitué par le titre de l’article, sa description et son URL.

 

Figure 3 : nuages de mots avec "carte des sections" (1 section = 1 carré = 1 article)

 

Dans la troisième, on y voit toujours le même nuage de mots sur la gauche, dans lequel chaque mot donne accès via un clic à une « représentation cartographique[5] » du contenu du fil scruté dans laquelle le contenu textuel de la description d’un article est représenté par un carré, les articles contenant le mot cliqué sont associées à des carrés rouges  et les autres à des carrés blancs  . Chaque carré pointe sur un article en ligne : un clic sur le carré donne accès à l’article en ligne.

 

Dans les trois figures, la taille de la police de caractères utilisée pour afficher le mot dans le nuage est déterminée par la fréquence du mot dans l’ensemble des articles scrutés pour un journal donné.

Architecture du projet « nuage de mots »

Dans le projet initial [Herrington, 2005], l’architecture « en amont » de l’application a l’allure suivante :

Figure 4 : architecte initiale "en amont"

L’application lit des flux RSS et déclenche un parser RSS (écrit en PHP) qui a pour tâche de sélectionner les zones de texte à explorer puis de lancer une opération de segmentation de ces contenus textuels en ne retenant que les mots non présents dans une liste prédéterminée (mots  vides).

 

L’architecture maintenue pour le projet présenté ici est la suivante :

 

Figure 5 : architecture modifiée "en amont"

Le principe général est conservé, tout le code est réécrit en Perl, parser compris. Tous les mots présents dans les contenus textuels scrutés sont conservés. Les mots retenus et comptés sont sauvegardés au format XML. Le fichier produit a l’allure suivante :

 

Figure 6 : schéma du lexique construit

Dans ce schéma, l élément words contient la liste de tous les mots (et leur fréquence) pour un fil de presse donné, l’élément item contenant la liste de tous les mots pour un article donné contenu dans ce fil.

 

On présente ci-dessous un extrait du lexique construit :

 

<?xml version="1.0" encoding="iso-8859-1"?>

<?xml-stylesheet type="text/xsl" href="parserss.xsl"?>

<wordcounts>

<source>LIBERATION</source>

<time>Wed Oct 26 08:06:28 2005</time>

<words>

<word text="de" count="16" />

<word text="le" count="5" />

<word text="la" count="5" />

<word text="d" count="5" />

</words>

<items>

<item url="http://www.liberation.fr/page.php?Article=332624" title="">

<description><![CDATA[Mort du dessinateur aux personnages diaphanes et angéliques, rendu célèbre par un générique d'Antenne 2.]]></description>

<title><![CDATA[Feu Folon]]></title>

<words>

<word text="Mort" text2="Mort" />

<word text="du" text2="du" />

<word text="dessinateur" text2="dessinateur" />

<word text="aux" text2="aux" />

<word text="personnages" text2="personnages" />

<word text="diaphanes" text2="diaphanes" />

<word text="et" text2="et" />

<word text="angéliques" text2="angeliques" />

<word text="rendu" text2="rendu" />

<word text="célèbre" text2="celebre" />

<word text="par" text2="par" />

<word text="un" text2="un" />

<word text="générique" text2="generique" />

<word text="d" text2="d" />

<word text="Antenne" text2="Antenne" />

<word text="2" text2="2" />

</words>

</item>

</items>

</wordcounts>

 

Une modification mineure a été réalisée dans la grammaire du fichier lexique produit par rapport à l’application initiale. La présence de caractères accentués dans les mots posant des problèmes pour la seconde partie de l’application (celle utilisant le script établissant le lien entre le mot et ses contextes), un attribut a été ajouté dans les éléments décrivant les mots, celui-ci contenant après transcodage, la forme graphique normalisée du mot sans caractères accentués (génériqueest réécritgenerique).

 

Dans un deuxième temps, l’application construit le nuage des mots en utilisant le lexique produit et en appliquant sur la sortie XML contenant ce lexique une feuille de style XSL (utilisant un script Javascript).

 

Figure 7 : architecture "en aval"

Cette architecture « en aval » maintient intégralement le principe présenté dans [Herrington, 2005]. Plusieurs modifications ont cependant été apportées :

 

Prototype "Fils De Presse" et Plateforme d'archivage des fils

Liens Prototype "Fils De Presse" (page officielle)

 

Liens Prototype "Fils De Presse" (accès restreint)

 

Liens Prototype "Fils2Clouds" (accès restreint)

 

Liens Plateforme d'archivage des fils (page officielle)

 

Liens Plateforme d'archivage des fils (accès restreint)

 

Liens Prototype "ChronoFil/ChronoMonde" (accès restreint)

 

Dans la cadre de ce projet, mise en place de 2 modules, ChronoFil et ChronoMonde :

Liens externes (projets divers)

Technocrati

 

TagCloud

 

TagCloud Le_Monde

 

10x10

 

Newsmap

 

Newscloud

 

1000Tags

 

ZoomTags

 

ZoomClouds

 

reverbiage

 

Lectures

TagClouds Obervations, Font Sizes and Colors

 

Visual Complexity

 

Blog Technologies du Langage (Jean Véronis)

 

Blog La Feuille

Blog bibliosession

Travaux réalisés / en cours

 


[1] Voir ici : Master pluriTAL, cf projet Nuages (texte+slides+cours)


[2] Voir aussi sur le weblog du projet Master TAL 2005-2006: la page projet Nuages et la page Travaux projet Nuages


[3] (cf post-504, post-509, post-510, post-516) Des nuages de mots (qui s'attirent).

Fils et Information mutuelle : "Information mutuelle : repérer les mots qui s'attirent..." par Benoît Habert.
Une synthèse complète et in-progress des travaux en cours (Fils et Information mutuelle) est visible ici :
Des nuages de mots (qui s'attirent) (1) (Mars-Avril 2006) ou ici : Des nuages de mots (qui s'attirent) (1) (Mars-Avril 2006)
Des nuages de mots (qui s'attirent) (2) (Juin 2006)
Des nuages de mots (qui s'attirent) (3) (Septembre 2006)


[4]"La variation dans les fils" : repérage de la variation dans les fils de Presse.

[5]"Les Candidats 2007" : Cartographie des candidats dans les Fils du Monde.fr / Navigations dans les Fils du Monde.fr



[4] http://www.liberation.com/interactif/rss/ [MàJ : 03/07/2006 suite à la mise en ligne de la version "Web 2.0" de Libération.fr. Ancienne adresse : http://www.liberation.fr/page.php?Article=149907]

[5]Ce développement s’inscrit dans les travaux faits autour de Lexico3 pour construire des représentations des textes donnant à voir les unités textuelles manipulées à travers des objets graphiques :

http://www.tal.univ-paris3.fr/lexico/http://www.tal.univ-paris3.fr/CE-query/