Accueil

TAL.apatride

Blog

Script

A partir d'environ 300 lignes de codes, y compris les commentaires, et les lignes de code CSS, disposées de façon peu économique mais plus lisibles, nous avons été capables de traiter une grande quantité de données textuelles, de prévoir les possibles problèmes au moment de la récuperation des données et de présenter les résultats de manière accessible. C'est la preuve de la puissance, de la compacticité et de la simplicité de Bash. C'est aussi une modeste démostration de ce que l'on peut faire dans le domaine du TAL.

Bien que vous pouvez trouver la structure du script dans le section Démarche, ici nous vous presentons le script definitif et commenté en détail. Vous pouvez aussi le télécharger à partir de l'icône suivant.

script icon

Mode d'emploi [Ubuntu] Icon Ubuntu

Pas à suivre Description de la tâche
Préparation des répertoires Téléchargez et exécutez ce programme pour créer l’environnement de travail
Programme principal Téléchargez le script ci-dessus et placez-le dans le dossier PROGRAMMES.
Programme Encode::Detect Téléchargez le programme Encode::Detect et déplacez-le dans le dossier PROGRAMMES.
Programme Minigrep Téléchargez le programme Minigrep et placez-le dans le dossier PROGRAMMES dans un autre dossier avec le même nom que le fichier zip.
Préparation du corpus Installez le module Encode::Detect avec la commande sudo cpan install Encode::Detect et la librairie Unicode::String avec la commande sudo cpan install Unicode::String
Fichier d'URLs Créez un fichier d'URL à analyser et placez-le dans le dossier URLS.
Exécution du programme principal Exécutez le programme avec la commande suivante. Vous devez choisir un motif avec lequel vous voulez travailler au lieu du mot MOTIF: bash ./PROGRAMMES/projet-script.sh ./URLS ./TABLEAUX/tableaux_projet.html "MOTIF"
Bash icon
code slash icon
perl icon