Secteur TAL Informatique
ILPGA Université Paris 3
Cours Modules L7T04/L8T07 "Programmation et projet encadré" (Master TAL 1/2) TAL Paris 3 - ILPGA / Paris X / INALCO
Responsables du cours
S. Fleury/J.M Daube/R.Belmouhoub. (contact : serge.fleury@univ-paris3.fr)
Descriptif du cours
Mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Ce cours posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...). Ce cours sera aussi l'occasion d'une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif.
Archives Cours
Projet La vie des mots sur le web
Transparents Série 1 (version PDF), "Présentation du cours et du projet, le mini-projet "un mot sur le web", ... ou (version HTML).
Lecture complémentaire :
Les moteurs de recherche multilingues.
Traduction et Veille stratégique multilingue : Supports et communications. On regardera en particulier : M. Jean-Paul PINTE, Institut Catholique de Lille : « La Veille pédagogique : outils et ressources pour les traducteurs »
- "Automatisation des tâches" (étape 1)
- Incise "Introduction à Unix" (Transparents du cours de R.Belmouhoub)
- "Automatisation des tâches" (étape 2)
- "Automatisation des tâches" (étape 3)
- Les différentes étapes d'écriture des scripts de traitement des pages contenant les mots choisis
- Un mini-grep multilingue en Perl
- Mode d'emploi : installation de mini-grep multilingue sous cygwin
- un modèle de site (vide) pour le rapport final. On regardera aussi sur ce site : [1] Apprendre le langage HTML ("site réservé aux débutants") (ou ici une liste de cours HTML sur thot.cursus.edu) et ici : [2] Maîtrisez le langage HTML ("cours pour niveau avancé en HTML")
Transparents Série 2 (version PDF) : "Fichiers et systèmes de fichiers"
Transparents Série 3 (HTML) : "Egrep et expressions régulières"
Projets La vie des mots sur le web : travaux en cours
- Le blog de Ludivine et de Anne-Claire
- Le blog de Pierre
- Le blog de Karl et de Quentin
- Le blog plurital
Travaux réalisés "Un mot sur le web"
(MàJ : 30/01/2008)
- Ludivine Kuznik (Paris X), Anne-Claire Minaux (Paris X) | [25/12/2007]
- Nadia Makouar (Inalco), Maria Doganova (Inalco) | [05/01/2008]
- Mohamed Toure (Inalco), Mathieu Duplat (Inalco) | [05/01/2008]
- Emilie Taniyama (Inalco), Kantaro Igarashi (Inalco) | [06/01/2008]
- Pierre Marchal (Inalco) | [11/01/2008]
- Lionel Shen (Inalco) | [07/01/2008]
- Tatiana Makouskaya (Inalco), Wakako Ishibashi (Inalco) | [07/01/2008]
- Karl Szymoniak (Paris 3), Quentin Peigne (Paris 3) | [10/01/2008]
- Sylvia Ombuya (Paris 3), Norolalaina Rakotomalala (Paris 3) | [17/01/2008]
- Sarah Terrail-Lormel (Paris 3) | [29/01/2008]
- Jean Testard (Inalco) | [30/01/2008]
Notation des Projets "Un mot sur le web"
Projet Boîtes à outils
- "Boîte à outils Introduction : Présentation générale". Transparents : VERSION PDF. Remarque : un DVD avec l'ensemble des ressources BàO sera distribué pendant le cours.
- Fils RSS et veille. Présentation réalisée par Sylvie Le Bars expliquant comment mettre en pratique les flux RSS pour une veille.(version à télécharger).
- Introduction à RSS sur le site commentcamarche.com.
- Présentation très complète réalisée par des bibliothécaires de l'université de Montréal : "La première partie se veut une introduction générale à RSS tandis que la seconde partie s'applique à démontrer des exemples d'usages courants et innovateurs de cette technologie par les bibliothèques, usages qui pourraient être amenés à se généraliser dans le futur."
- Support de cours réalisé par Stéphane Cottin pour la formation ADBS : "Utiliser les fils RSS". Les points abordés au cours de cette formation : Définition(s) et usages du format RSS, Comment s'y abonner ? Comment en trouver ? Quels outils ou services pour les exploiter (services en ligne, logiciels indépendants, fonctionnalités des navigateurs). Comment chercher dans des fils RSS ? Comment syndiquer du contenu ?
- "Boîte à outils Série 1 : script Perl". Transparents : VERSION PDF ; VERSION HTML (avec liens actifs, version "optimisée" pour Internet Explorer)
- Outils et ressources pour démarrer : le corpus de travail et les scripts à utiliser pour démarrer sont accessibles ICI ou via la version HTML précédente.
- REMARQUE : Un poly perl et des ressources autour de Perl sont disponibles sur votre DVD...
- "Boîte à outils Série 2 : étiquetage". Transparents : VERSION PDF ; VERSION HTML (avec liens actifs, version "optimisée" pour Internet Explorer)
- "Boîte à outils Série 2 : étiquetage". Lecture complémentaire : "Etiquetage morphosyntaxique"
- Ressources pour treetagger (win32) : Présentation de treetagger (version PDF ou version HTML). Archive complète avec treetagger et présentation.
- Ressources pour Cordial : une présentation au format PDF.
- Exemple réduit de résultat à construire (Afficher le source pour visualiser la codage XML, le fichier XML est présenté ici avec une feuille de styles XSL reformatant son contenu pour affichage dans le navigateur). Résultat produit avec treetagger
- "Boîte à outils Série 3 : Introduction Extraction de patrons". Transparents du cours : Version PDF ou version PPT.
- Dans les transparents précédents, on présente les 2 étapes à réaliser :
- Extraction de patrons sur les sorties "brutes" de l'étiquetage issue de Boîte à outils Série 2 via un script (détail dans les transparents et liens qui suivent)
- Extraction de patrons sur la sortie au format XML issue de Boîte à outils Série 2 : on utilisera ici une requête XPath pour construire la liste des patrons visés.
- On donne ici à voir le résultat attendu (patron : NOM ADJ) construit à partir d'un exemple réduit de résultat construit dans Boîte à outils Série 2 (Afficher le source pour visualiser la codage XML, le fichier XML est présenté ici avec une feuille de styles XSL reformatant son contenu pour affichage dans le navigateur). [Lien direct vers la feuille de styles utilisée pour construire le résultat attendu]
- Autre exemple de sortie : traitement du fil RSS "Présidentielle 2007" proposé sur le site du journal "Le Monde". Période traitée : 20/11/2006-10/02/2007. Extraction du patron NOM ADJ : (1) 20/11/2006-31/12/2006 (2) 01/01/2007-10/02/2007.
- "Boîte à outils Série 3 : Extraction de patrons"". Transparents du cours (suite 1 : extraction via script)
- "Boîte à outils Série 3 : Extraction de patrons" Compléments et détails.
- "Boîte à outils Série 3 et 4 : Extraction de patrons" Travail à réaliser avec le TRAMEUR : extraction de patrons et graphes de mots.
- "Boîte à outils Série 4" : Le programme patron2graph.exe : le programme, mode d'empoi et fichiers de test. Exemple de sortie :
- "Boîte à outils Série 4" : Des textes aux Graphes : pas à pas (et à la main!).
- "Boîte à outils Série 5 : Information mutuelle" (ressources complètes zippées)
Boîtes à outils [Séries 1, 2, 3, 4, 5] : travaux réalisés (sur le site pluriTAL)
- Ludivine Kuznik, Anne-Claire Minaux (Paris X) | [02/06/2008]
- Karl Szymoniak, Quentin Peigne (Paris 3) | [02/06/2008]
- Ishibashi Wakako, Taniyama Emilie , Igarashi Kantaro (Inalco) | [02/06/2008]
- Pierre Marchal (Inalco) | [03/06/2008]
- Nadia Makouar, Maria Doganova (Inalco) | [03/06/2008]
- Sarah Terrail-Lormel (Paris 3) | [04/06/2008]
- Sylvia Ombuya (Paris 3) | [05/06/2008]
- Tatiana Makouskaya, Lionel Shen (Inalco) | [10/06/2008]
Projets
- Projet dit Navigations dans "les Fils du Monde"
- Projet dit Multilinguisme
Navigation et Constellations par Ludivine Kuznik, Anne-Claire Minaux (Paris X), Karl Szymoniak, Quentin Peigne (Paris 3), Ishibashi Wakako, Soizic Tharrault (Inalco). Forum du projet | [06/06/2008]
Contrôle des connaissances
Projets, travail personnel...
Bibliographie
cf les slides vus en cours...
Lectures
- Tutorial Perl : The tutorial is split into twenty-one sections, although you'll probably find it easier if you start from the beginning, especially if you're new to Perl. Lessons zero to ten deal with the basics, and the rest deal with more advanced topics, like servers, perl's guts, and parsing. Lesson 12 seems particularly popular: it deals with perl under Windows. The tutorial should be in line with modern Perl practices, so hopefully you won't see any more bareword filehandles, two-argument open or -w switches.
- Guide avancé d'écriture des scripts Bash, sur le Site de traduction français pour le guide ABS Advanced Bash Scripting Guide
(Lien : Version 5 http://abs.traduc.org/abs-5.0-fr/)
Une exploration en profondeur de l'art de la programmation shell. Ce tutoriel ne suppose aucune connaissance de la programmation de scripts, mais permet une progression rapide vers un niveau intermédiaire/avancé d'instructions tout en se plongeant dans de petites astuces du royaume d'UNIX. Il est utile comme livre, comme manuel permettant d'étudier seul, et comme référence et source de connaissance sur les techniques de programmation de scripts. Les exercices et les exemples grandement commentés invitent à une participation active du lecteur avec en tête l'idée que la seule façon pour vraiment apprendre la programmation de scripts est d'écrire des scripts.
On regardera en particulier : la seconde partie, le chapitre 10, le chapitre 14, etc. - Pour utilisateurs débutants ou confirmés : Unix, le Terminal, les Expressions régulières... tout ça est sur le site d’Isabelle Volant. On y retournera souvent donc…
- La documentation de Perl : Article publié dans Linux Magazine 53, septembre 2003. Repris dans Linux Dossiers 2 (avril/mail/juin 2004), "L'objectif de cet article est de vous fournir les moyens de trouver seul la réponse aux questions que vous vous posez, ou au moins de progresser aussi loin que possible avant de finir par poser la question sur un forum ou une liste de discussion."
- Sur le site d'IBM, la série "Speaking Unix" :
- Speaking UNIX, Part 8: UNIX processes
On UNIX® systems, each system and end-user task is contained within a process. The system creates new processes all the time and processes die when a task finishes or something unexpected happens. Here, learn how to control processes and use a number of commands to peer into your system. At a recent street fair, I was mesmerized by the one-man band. Yes, I am easily amused, but I was impressed nonetheless. Combining harmonica, banjo, cymbals, and a kick drum -- at mouth, lap, knees, and foot, respectively -- the veritable solo symphony gave a rousing performance of the Led Zeppelin classic "Stairway to Heaven" and a moving interpretation of Beethoven's Fifth Symphony. By comparison, I'm lucky if I can pat my head and rub my tummy in tandem. (Or is it pat my tummy and rub my head?). Lucky for you, the UNIX® operating system is much more like the one-man band than your clumsy columnist. UNIX is exceptional at juggling many tasks at once, all the while orchestrating access to the system's finite resources (memory, devices, and CPUs). In lay terms, UNIX can readily walk and chew gum at the same time. This month, let's probe a little deeper than usual to examine how UNIX manages to do so many things simultaneously. While spelunking, let's also glimpse the internals of your shell to see how job-control commands, such as Control-C (terminate) and Control-Z (suspend), are implemented. Headlamps on! To the bat cave! - Speaking UNIX, Part 7: Command-line locution
UNIX® has a dialect all its own, and its vocabulary of commands is quite large. But you don't have to learn everything all at once. Here, discover more command-line combinations and expand your mastery of the UNIX language. Whenever you travel to a foreign country in which the inhabitants speak an unusual native tongue, you might arm yourself with essential survival phrases, such as "How much does this cost?," "What kind of meat is this?," and "Where is the bathroom?" Memorizing such little quips ensures that you don't get overcharged for that snake sandwich you ordered, and you know where to go when Mother Nature (or the snake sandwich) calls. UNIX®, too, has a dialect all its own and, over the past six months, this Speaking UNIX series has provided something of a crash course in command-line locution. This month, learn several helpful phrases that will have you blending with the locals in no time. Grab your toothbrush, pack some comfortable shoes, and update your inoculations. You're off for sun, sand, and shells. (For the sun and sand, scoop up your laptop, head to the beach, plop down near the water's edge, and read this column. And don't forget your sunscreen.) - Speaking UNIX, Part 6: Automate, automate, automate!
Discover how shell scripts can mechanize virtually any personal or system task. Scripts can monitor, archive, update, report, upload, and download. Indeed, no job is too small or too great for a script. Here's an introduction. - Speaking UNIX, Part 5: Data, data everywhere
Take a look at several techniques that illustrate how to move files among systems and how to keep such far-flung data in sync. - Speaking UNIX, Part 4: UNIX ownership and permissions provide for privacy and participation
Learn how to manipulate file permissions to protect your files, or share them with others. - Speaking UNIX, Part 3: Do everything right from the command line
Discover three essential UNIX(R) utilities that deliver the entire Internet to your command line. - Speaking UNIX, Part 2: Working smarter, not harder
Learn how to leverage the many shortcuts that the UNIX(R) shell provides. With a little practice, you'll work smarter, not harder. - Speaking UNIX, Part 1: Command the power of the command line
Learn the basics of the UNIX shell and discover how you can use the command line to combine the finite set of UNIX utilities into innumerable data transforms.