Projet pluriTAL

BAO1

Aller voir.

Projet pluriTAL

BAO2

Aller voir.

Projet pluriTAL

BAO3

Aller voir.

Projet pluriTAL

BAO4

Aller voir.

Bienvenue sur notre site boîte à outils.

Vous vous demandez peut-être qu'est-ce que "Boîte à outils". Il s'agit d'un projet du cours "Programmation et projet encadré" du Master 1 PluriTAL (Paris III Sorbonne Nouvelle - Paris Ouest Nanterre-La Défense - INALCO), assuré par Serge FLEURY et Jean-Michel DAUBE et Rachid BELMOUHOUB.

Celui-ci se compose de la mise en œuvre d'une chaîne de traitements textuels semi-automatique, depuis la récupération des données jusqu'à leur présentation.

Il est donc question d'utiliser des outils informatiques, au niveau de la récupération de corpus, sa normalisation, la segmentation, son étiquetage, l'extraction de données ainsi que la présentation des résultats.

Il est divisé en 4 boîtes à outils:

  • La première permettant d'extraire les titres, les descriptions et le contenu d'articles d'un corpus composé du flux RSS du journal Le Monde et de les enregistrer au format XML et TXT.
  • La deuxième permettant de tokéniser et d'étiqueter les fichiers obtenus précédemment en utilisant les logiciels Treetagger et Cordial.
  • La troisième permettant d'extraire des patrons morphosyntaxiques basés sur l'étiquetage Treetagger et Cordial afin d'obtenir un groupe de tokens obéissant à un modèle spécifique.
  • La quatrième permettant de modéliser des graphes montrant les similarités et les connectivités entre les tokens des groupes obtenus grâce à la troisième boîte à outils.
  • Comme vous pourrez le constater, notre site est également accessible aux personnes malvoyantes.