Cours Projet encadré - plurital.org
Projet "La vie multilingue des mots sur le web"
Les différentes étapes d'écriture des scripts
de traitement des pages contenant les mots choisis
(retour page d'accueil du cours)
La figure ci-dessous donne un exemple de ce que pourrait être l'arborescence des fichiers constituant le projet. Chaque dossier porte un nom donnant une indication sur le type de fichiers qu'il contiendra :
En prenant comme modèle l'arborescence de travail décrite dans la figure ci-dessus, écrire un script qui va construire cette arborescence... (solution)
L'arborescence étant créée, déposez vos fichiers d'urls dans le dossier idoine.
Les scripts utilisés infra ont été construits de telle sorte que leur exécution nécessite que l'on se positionne au préalable à la racine de l'arborescence précédente (le dossier PROJET-MOT-SUR-LE-WEB). Dans l'exemple traité ici, ce dossier se situe sur le bureau du compte utilisateur (sous Windows). La première commande passée ci-dessous (la commande cd...) consiste donc à se déplacer dans le dossier de travail :
Objectif : Lire un fichier contenant une liste d'URL et produire un fichier HTML contenant un tableau (à 1 colonne) regroupant ces URLs
| 1 | http://lien1.com |
| 2 | http://lien2.com |
| 3 | http://lien3.com |
| 4 | http://lien4.com |
Objectif : Lire un fichier contenant une liste d'URL, produire un fichier HTML contenant un tableau (à 2 colonnes) regroupant (1) ces URLs et (2) les pages aspirées correspondantes. Etablir les liens vers les 2 ressources (URL, page locale).
On commencera par regarder les transparents du cours (slides 78-79).
Dans l'exemple précédent, on utilise wget (puis d'autres commandes) pour récupérer des adresses mails dans une page HTML...
Objectif : Lire un
fichier contenant une liste d'URL, produire un fichier HTML
contenant un tableau (à 3 colonnes)
regroupant (1)
ces URLs, (2)
les pages aspirées
correspondantes,(3)
les DUMPS des pages aspirées obtenus avec lynx. Etablir
les liens vers les 3 ressources (URL, page
locale, dump).
Contrainte supplémentaire : le fichier dump devra être converti en utf8 i.e conversion d'encodage en utf8 si nécessaire
Exemple de résultat attendu :
| n° | URL | PAGES ASPIREES | DUMP initial | DUMP utf-8 |
| 1 | http://www.madore.org/~david/weblog/ | 1.html | 1-utf8.txt | |
| 2 | http://tal.univ-paris3.fr/plurital/ | 2.html | 2.txt (iso-8859-1) | 2-utf8.txt |
| 3 | http://tal.univ-paris3.fr/trameur/ | 3.html | 3.txt (ISO-8859-1) | 3-utf8.txt |
On commencera par regarder les transparents du cours (slides 83-88).
Objectif : Lire un (ou plusieurs) fichier(s) contenant une liste d'URL, produire un fichier HTML contenant un (ou plusieurs) tableau(x) (à 3 colonnes chacun) regroupant (1) ces URLs, (2) les pages aspirées correspondantes, (3) les DUMPS des pages aspirées obtenus avec lynx. Etablir les liens vers les 3 ressources (URL, page locale, dump)
Objectif : Lire un (ou plusieurs) fichier(s) contenant une liste d'URL, produire un fichier HTML contenant un (ou plusieurs) tableau(x) (à 4 colonnes chacun) regroupant (1) ces URLs, (2) les pages aspirées correspondantes, (3) les DUMPS des pages aspirées obtenus avec lynx, (4) les contextes obtenus avec egrep. Etablir les liens vers les 4 ressources (URL, page locale, dump, contexte)
On commencera par regarder les transparents du cours ci-dessus (slides 92-104) ou sur iCampus.
On introduira une colonne supplémentaire dans laquelle on insèrera le nombre d'occurrence de la forme étudiée dans la page (l'URL) associée. On pourra aussi calculer la fréquence totale pour l'ensemble des pages.
- Présentation du projet : transparents du cours.
- Introduction à Unix : transparents du cours.
- Introduction à HTML : on regardera par exemple cette liste des 12 cours gratuits en ligne pour apprendre le langage HTML
- Bash : Manuel Bash en ligne.
- Perl : Tutorial Perl . The tutorial is split into twenty-one sections, although you'll probably find it easier if you start from the beginning, especially if you're new to Perl. Lessons zero to ten deal with the basics, and the rest deal with more advanced topics, like servers, perl's guts, and parsing. Lesson 12 seems particularly popular: it deals with perl under Windows. The tutorial should be in line with modern Perl practices, so hopefully you won't see any more bareword filehandles, two-argument open or -w switches.
- Pour aller plus loin à la suite de ce cours :
- (sur le site "Outils Froids") : Pratiquer la veille multilingue en 4 étapes et 15 outils linguistiques .
- Une analyse réalisée à la suite des débats entre les candidats au cours de la campagne présidentielle américaine 2008 : Lexical Analysis of 2008 US Presidential and Vice-Presidential Debates — who's the Windbag ?.
Plurital 2011/2012. Cours Projet Encadré. J.M. Daube, S. Fleury, R. Belmouhoub. http://tal.univ-paris3.fr/plurital/