Présentation

Notre projet consiste à coder un ensemble de programmes en langage de programmation perl.
Le point d’entrée sera un corpus composé de tous les fils RSS du journal Le Monde de l’année 2015.
Notre corpus est donc constitué de deux gigas de données organisées sous forme d’arborescence.
Avec ces données nous allons extraire des patrons morpho-syntaxiques et des graphes tout en ayant préallablement extré et annoté le contenu textuel qui nous intéressait.

Le projet a été structuré en différentes étapes :

Boîte à outil 1 :
Cette première étape consistera en l'extraction du texte de la masse de données des titres et descriptions contenus dans les pages xml et txt du corpus.

Boîte à outils 2 :
Cette étape a pour but d'étiquetter morphosyntaxiquement les contenus extraits précédement avec Cordial et Treetagger.

Boîte à outil 3 :
Nous allons extraire des patrons morphosyntaxiques en fonction des différents fichiers annotés en notre possession.

Boîte à outil 4 :
Dans cette dernière boite à outil nous allons créer des représentations graphiques des patrons extraits sous forme de graphes via patron2graphes.

A l'aventure !

Découvrez notre projet

Savoir Faire

Tout pour partir bien équipé !

Qui sommes-nous ?

Mystère ...

« Pour que l'événement le plus banal devienne une aventure, il faut et il suffit qu'on se mette à le raconter. »
Jean-Paul Sartre

Carnet de Voyage

Découvrez nos aventures en temps réél.

Ce blog weebly nous a servi de carnet de bord durant le semestre. N'hésitez pas à le feuilleter si vous souhaitez lire nos aventures dans les moindre détails.

Notre Formation

Découvrez le site internet de notre formation.

Vous vous intéressez à notre master ou vous êtes tout simplement curieux ? N'hésitez pas à visiter le site Plurital qui vous permettra d'obtenir toutes informations sur notre formation.