Présentation du projet

Le Fils RSS (Really Simple Syndication), appelé encore canal RSS ou flux RSS, est un flux d'actualités sur Internet qui peuvent être lues avec des lecteurs en ligne ou avec des lecteurs de flux. Ainsi les nouvelles informations sur un site peuvent être facilement exploitées par des tiers. Le fichier RSS est un document XML.

On travaille sur un corpus de fils RSS du journal Le Monde, recueillis tous les jours de l'année 2008 à 19h. Le but est de construire un outils semi-automatique de filtrage et nettoyage du contenu des fichiers XML (Boîte à outils 1 – Bao1), de préparer un fichier avec le contenu étiqueté par des termes linguistiques et de le présenter comme des tokens en utilisant Treetagger et Cordial (Boîte à outils 2 – Bao2), de faire une extraction terminologique en filtrant des patrons (Boîte à outils 3 - Bao3) et finalement utiliser des outils XML et un programme Perl patron2graphe.exe pour présanter sous forme de graphe les liens entre les mots dans le corpus correspondant à un motif donné (Boîte à outils 4 – Bao4).

Structure du document des fils RSS du journal Le Monde:

<rss>

<channel>

<link> </link>

<description>Toute l'actualité au moment de la connexion</description>

<language>en</language>

<copyright> <:copyright>

<copyright>Copyright Le Monde.fr</copyright>

<pubDate>Sun, 30 Mar 2008 16:38:03 GMT</pubDate>

<ttl>30</ttl>

<dc:date>2008-03-30T16:38:03Z</dc:date>

<dc:language>en</dc:language>

<dc:rights>Copyright Le Monde.fr</dc:rights>

<image>

<title>Le Monde.fr : A la une</title>

<url></url>

<link>http://www.lemonde.fr</link>

</image>


<item>

.......................................

</item>

<item>

.......................................

</item>

........................................................

</channel>

</rss>

  • Chaque <item>, c'est-à-dire chaque article a la structure suivante:

<item>

<title></title>

<link>........................ .htm</link>

<description>....................</description>

<enclosure />

<pubDate>........................</pubDate>

<guid>...............................</guid>

<dc:date>..........................</dc:date>

</item>


©  Ginka Yankova  2009