Serge Fleury

Maître de Conférences en linguistique informatique Sorbonne nouvelle, Paris 3
Membre du SYLEDED268

ILPGA / Sorbonne nouvelle
 
Back TYpWEB

TyPWEB
TYpologie et Profilage de sites WEB (LOT 1)

Outils

Outils développés

  • L'analyseur de site WEBXREF : historique
    • WEBXREF (original) Présentation sur le site des auteurs
    • "Webxref is a Perl5 program to quickly check links in your web documents. Webxref is intended to be easy to use, without any configuration. To check links in index.html and report errors simply call: webxref index.html -- Webxref makes cross references from a html document and the html documents linked from that html document. I.e. the links found in that document are checked for missing links or files, then the links in that document are checked and so on.
      To check links in index.html and report errors simply call:
      webxref index.html
      Webxref makes cross references from a html document and the html documents linked from that html document. I.e. the links found in that document are checked for missing links or files, then the links in that document are checked and so on.
      A development version (0.3.5) is now available, with new features and all the goodness of treesed included. Use this with caution!
      Usage: webxref -help/-h -noxref -xref/-x -fluff -htmlonly
      -nohttp -delay seconds
      -silent/-s -verbose/-v -errors/-e
      -long/-l -brief -html
      -islocal address-avoid/-a regexp
      -one/-1 -depth depth -root/-r rootdir -fullpath
      -date yymmdd -time hhmmss -before -after
      -find string -findexpr regexp -replace string -replaceexpr regexp -by string/expr
      [-files/-f] file1 file2
      file.html"
      Webxref written 1995 by Rick Jansen (rja@euronet.nl)
  • WEBXREF modifié (part 1) : Un analyseur de site et un désosseur de page HTML
    • WEBXREF_TypWeb
    • Le programme WEBXREF présenté supra a été modifié pour réaliser un "désossage" des pages HTML lues sur un site en suivant la démarche initiée par le programme original.
      Ce programme est disponible ici : download (version 036).
      Lecture du rapport écrit par Calin Mosut retraÁant le travail de mise au point de cette nouvelle version : Manuel WEBXREF_TypWeb
      Présentation du travail réalisé avec WEBXREF_Typweb dans la phase de pré-traitement des sites : Phase 1
      WEBXREF_TypWeb a été écrit par Calin Mosut. (ENS-UMR 8503)
  • Corpus XML à partir de webxref
    • MKTIPO programme écrit en perl (version de test). Documentation à venir.
    • Le programme mktipo vise à construire un corpus normalisé à partir des rapports construits par le programme webxref sur un site donné. A l'issue du traitement, ce programme produit un fichier XML regroupant toutes les informations associées à la description des éléments structurels et textuels du site visé. Cette étape de normalisation permet de structurer les informations à analyser.

      Ce programme est disponible ici : download (version 036).

      Le corpus construit par mktipo contient dans des champs balisés associés à des informations représentant des données relatives aux éléments structurels et aux éléments textuels.

    • Certains champs donnent des comptages sur les éléments HTML présents dans les pages traitées (liens, images). De mÍme le champ sitefiletxtbrut donne l'intégralité du texte contenu dans la page visée.
    • Un champ supplémentaire vise à maintenir l'articulation entre les données textuelles de la page HTML initiale et les éléments structurels qui la composent. Le champ sitefiletxtandtagcontent donne en effet une présentation des portions de texte présents et des éléments HTML qui structurent la présentation de ces zones textuelles.
  • Statistiques élementaires
    • Le programme ExtAndStatFrCorpTwp (sorties formatées ou non) permet de générer des statistiques élémentaires sur les corpus issus de mktipo
      Ce programme est disponible ici : download (version 036).
  • WEBXREF modifié (part 2)
  • Outil de préparation de corpus
    • MKCORPUS : programme écrit en perl/tk (version de test). Documentation ici
    • Ce programme est disponible ici : MKCorpus Project.

      Voir documentation : Outils d'édition et de manipulation de corpus balisés (SGML, XML, HTML), pour leurs préparations aux outils du TAL tels Lexico, Alceste, Cordial. Pour utiliser et lancer ce programme : il faut disposer de perl et du module tk de perl.

Outils utilisés

  • Un aspirateur
    • HTTrack "The web mirror utility", Présentation sur le site des auteurs

    •   "HTTrack est un aspirateur de sites web. Il vous permet de transférer un site web d'Internet vers votre disque dur, en construisant récursivement toute la structure, récupérant html, images et fichiers du serveur vers votre ordinateur. Les liens sont reconstruits de manière relative, de faÁon à pouvoir browser librement le site local via votre butineur habituel. Vous pouvez transférer (miroir) plusieurs sites ensembles de faÁon à pouvoir passer de l'un à l'autre librement. Vous pouvez également mettre à jour (update) un site existant, ou continuer un transfert interrompu. Le robot est entièrement configurable, avec une aide intégrée. WinHTTrack est la version Windows95/98/NT/2K de HTTrack."
      "HTTrack a été développé en C et C++, en approximativement 10,000 lignes de code source. Nous avons dépensé de très, très nombreuses heures à tester et à débugger ce programme, de telle faÁon à ce qu'il soir le plus performant possible. Nous espérons avoir fait du bon boulot"

      Interface développée par Xavier Roche et Yann Philippot
      Moteur développé par Xavier Roche
      JavaParser développé par Yann Philippot
      Project original digiré by Patrick Ducrot et Daniel Carré
      Projet développé à l'ENSI Caen - ISMRA
      Copyright (C) Xavier Roche & Yann Philippot, tous droits réservés.

  • Un mappeur de site
    • ASTRA SITE MANAGER from Mercury Interactive

    •   "Astra SiteManager is a comprehensive visual Web site management tool that is designed to meet the challenges faced by Webmasters of rapidly growing Web sites with changing contents and control. Astra SiteManager scans your entire Web site-highlighting functional areas with color-coded links and URLs-to unfold a complete visual map of your site. It pinpoints broken links or access problems, compares maps as your site changes, identifies key usage patterns for improving Web site effectiveness and validates dynamically generated pages."
      Ce programme est disponible (en accès libre sur le site de Mercury Interactive).

Dernière modification le 10.05.2002 par Serge Fleury .