Accueil Corpus Script Nuages de mots Analyse Résumé

LE MONDE DES ADOLESCENTS

la vie du mot "adolescent" en russe et en français sur le Web

De quoi s'agit-il?

Ce site représente le travail final réalisé au sein du cours "Projet encadré" dans le cadre du Master 1 TAL.

Le but final de ce projet est de faire une analyse linguistique des données multilingues grâce à une chaîne de traitement textuel semi-automatique.
Plusieurs étapes ont été réalisées.
Tout d'abord, les liens html contenant le mot "adolescent" en français et en russe (подросток) ont été récupérés sur Internet. Ensuite, afin de rassembler les données multilingues, le script a été construit. Ce script permet de récupérer l'encodage de la page, le dump-text, le contexte, l'index hiérarchique et construire les bigrammes. L'information est présentée sous la forme d'un tableau.
Dans le but de voir les idées générales des corpus récupérés, les nuages des mots du motif et des mots les plus récurents ont été construits.
Ces données permettent de réaliser l'analyse linguistique sur iTrameur. Grâce à cet instrument de textométrie le réseau de cooccurents du motif ainsi que la concordance entre le motif et la lexique du contexte ont été analysé.

Sur ce site, vous pouvez trouver:

  • le corpus du travail;
  • le script nécessaire à l'analyse;
  • l'analyse linguistique des données de chaque langue;
  • le résumé comparatif.
  • Qui a réalisé ce projet?

    Ce projet a été réalisé par Natalia Kalashnikova, étudiante en Master 1 TAL à l'Université Paris III - Nouvelle Sorbonne.