LMSDL180  Programmation et projet encadré

Olga Semenova & Ninon Payen
DESS de Traductique (INALCO)


MINI PROJET "BARRAGE"


Objectifs du projet:
  • constituer un corpus limité du mot "barrage" sur le Web avec des échantillons de différents usages du mot dans le contexte;
  • utilisation des methodes d'extraction d'information;
  • automatisation des tâches répétitives.
Principales étapes du projet: 
  • Aspiration des pages selectionnées (commande "wget -i").
  • Filtrage des pages aspirées pour en faire des fichiers texte (commande "lynx -dump").
  • Extraction du mot "barrage" dans son contexte à partir des fichiers texte (commande "egrep -i").
  • Création du tableau synthétique contenant les liens vers les URLs initiales, les pages aspirées, les fichiers "dumpés" et les fichiers issus de la commande "egrep":
  • L'ensemble des activités réalisées dans l'ordre chronologique est présenté dans le JOURNAL
Problèmes rencontrés:
  • application des commandes aux pages Web avec extension .asp donnent des fichiers erronés (soit ils sont vides soit gardent les balises HTML);
  • difficulté à écrire le script final qui fait toutes les commandes en une seule boucle et en sortie crée un tableau à quatre colonnes où chaque colonne représente respectivement les données issues des quatre tâches effectuées.