Accueil Corpus Script Nuages de mots Analyse Résumé

LE MONDE DES ADOLESCENTS

la vie du mot "adolescent" en russe et en français sur le Web

Le script

Le but de cette étape est de construire le script en bash qui permet d'extraire et ensuite d'utiliser les données des liens récupérés auparavant.
Le script est construit selon les étapes suivantes (le schéma est récupéré sur le site du master TAL):

schéma du script récupéré sur plurital.org

Le script construit permet de:

  • faire l'aspiration de la page html;
  • trouver son encodage;
  • récupérer le dump-text et le contexte du motif;
  • compter la fréquence du motif;
  • construire les bigrammes et l'index hiérarchique.

  • Le programme minigrep multilingue en perl a été utilisé pour construire le fichier du contexte au format html.
    Vous pouvez trouver tous les détails, les commandes utilisées et les problèmes rencontrés sur le blog de ce projet.
    La version finale du script est disponible ici.

    Le tableau

    Dans cette partie le tableau de sortie général généré à partir du script est présenté. Les différentes couleurs des lignes indiquent par quel moyen l'encodage a été récupéré (par "file", "curl", sur la page aspirée ou directement sur le site).
    Le tableau est également disponible ici.

    La concaténation

    Pour pouvoir faire l'analyse linguistique des données multilingues, le projet a besoin des fichiers qui contiennent l'ensemble des fichiers du dump-text et du contexte de chaque langue. Les fichiers du dump-text et du contexte ont été rassemblés dans un fichier, auquel le petit script en bash a été appliqué. Ce script permet de faire la concaténation ainsi qu'insérer les balises qui marquent le début et la fin de chaque fichier concaténé. Vous pouvez consulter ce script ici.
    De cette façon on obtient quatre nouveaux fichiers:

    1. les fichiers du dump-text français;
    2. les fichiers du dump-text russe;
    3. les fichiers du contexte français;
    4. les fichiers du contexte russe.

    Ces fichiers sont ensuite utilisés pour construire les nuages de mots et faire l'analyse linguistique.