L'Extracteur

L'extracteur est un programme en perl/Tk réalisé durant ce semestre. Tk est un moteur d'interfaces graphiques compatible avec de nombreux langages de programmation, et qui nous a donc permis de donner un visage à notre programme, le rendant ainsi plus fonctionnel. Ce programme permet d'analyser des données textuelles, extraire le texte d'une page web, composer un dictionnaire des formes et réaliser des concordances. Le script de ce programme (entièrement commenté) est disponible ICI.

Présentation

  • Le programme se présente sous la forme d'une fenêtre comportant plusieurs onglets, correspondants aux principales actions du programme



  • On peut commencer l'analyse de n'importe quel texte grâce au menu "File" en haut à gauche, permettant de charger un texte présent sur la machine utilisée, charger une URL, convertir le contenu d'un page web en texte, sauvegarder et quitter.



  • L'onglet Edition-URL permet de visualiser le texte analysé, mais aussi de charger le texte d'une page internet à partir de son URL (bouton "Load-URL") et de "nettoyer" celui-ci avec le bouton "URL2txt". (exemple : URL juste chargée (texte comportant des balises) -> Texte nettoyé)

  • L'onglet Dictionnaire présente un dictionnaire des formes accompagnées de leurs fréquences.



    A partir de cette page, on peut sélectionner une forme pour faire sa concordance, grâce au bouton "Concordance" à gauche. On peut également, grâce au bouton "Save Dico to HTML", sauvegarder le dictionnaire des formes dans une page HTML comme celle-ci.

  • L'onglet Concordance donne un rapport de la concordance demandée dans l'onglet précédent, avec une nouvelle fois la possibilité de sauvegarder ce rapport dans une page HTML comme celle ci, grâce au bouton situé en bas de la fenêtre.




  • Le dernier onglet Rapport sur URL récapitule les informations principales à propos du tete analysé : son origine, les nombre de mots, la forme la plus présente ainsi que sa fréquence, et enfin la dernière forme recherchée dans la concordance.



Le Script

Du fait de l'utilisation de Tk pour disposer d'une interface graphique, et des nombreuse options que ce programme propose, son code est plus complexe que les petits programmes vus dans les autres parties
Le script disponible en haut de cette page a été "découpé" par les symboles de commentaires pour mieux délimiter chacune des parties. Nous allons survoler ici des blocs du code, dans l'ordre, pour en donner leurs fonctions.
  • Dans cette première partie du code, on signale à Perl les bibliothèques dont il aura besoin pour "comprendre" et executer ce programme. On peut y voir entre autre la commande "use Tk" demandant littéralement à Perl "Utilise Tk pour ce programme".



  • On crée ensuite une fenêtre principale en utilisant une option de Tk "Mainwindow". On lui donne également un titre.



  • Cette partie du code définit la forme et les options du menu "File" en haut à gauche du programme. On voit que chauqe commande ("Open File", "load URL" etc..) font appel à des procédures présentes plus tard dans le code, qui sont des sous-programmes réalisant des tâches précises.



  • On définit ici les 4 onglets du programme, leurs propriétés et leurs noms.



  • Après une longue partie du code définissant plus en détail chaque onglet avec sa forme et les sous-programmes associés, on arrive à la partie du script réunissant justement ces sous-programmes. Ces "sub" sont de petits programmes Perl intégrés au script général, et qui permettent d'effectuer des tâches bien précises. Chaque partie du programme vue précédement peut (et doit) faire appel à ces "sub" pour réaliser les tâches demandées, sans quoi l'Extracteur ne serait qu'une fenêtre avec des boutons sans effets. Le premier sous-programme (dont on ne voit ici qu'une partie), est une procédure permettant de récupérer une page web.



  • Cette autres procédure est celle qui crée le dictionnaire des formes.



  • Les procédures suivantes sont celles grâce auxquelles on peut "nettoyer" le contenu d'une page HMTL pour ne garder que le texte (supression des balises HTML etc..)



  • Ce sous-programme permet la sauvegarde du fichier.



  • Ce sub est responsable de l'option de recherche d'une forme dans le fichier analysé (barre "Search string" en bas de l'onglet principal).



  • Ce bloc correspond au sous-programme effectuant la concordance.



  • La procédure présentée ici est celle qui permet de sauvegarder le dico des formes en fichier HTML. Pour ce faire, le sous programme doit refaire le travail du sub "makedico" pour l'envoyer directement dans le contenu d'une page.



  • Idem pour la sauvegarde de la concordance en HTML.