Secteur TAL Informatique
ILPGA Université Paris 3
Cours Modules L7T04/L8T07 2005-2006 "Programmation et projet encadré" (Master TAL 1/2) TAL Paris 3 - ILPGA / Paris X / INALCO
Responsables du cours
S. Fleury/B. Habert/J.M Daube. (contact : serge.fleury@univ-paris3.fr)
Descriptif du cours
Mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Ce cours posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...). Ce cours sera aussi l'occasion d'une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif.
Lectures
- Guide avancé d'écriture des scripts Bash
(Lien : http://abs.traduc.org/abs-3.4-fr/index.html)
Une exploration en profondeur de l'art de la programmation shell. Ce tutoriel ne suppose aucune connaissance de la programmation de scripts, mais permet une progression rapide vers un niveau intermédiaire/avancé d'instructions tout en se plongeant dans de petites astuces du royaume d'UNIX. Il est utile comme livre, comme manuel permettant d'étudier seul, et comme référence et source de connaissance sur les techniques de programmation de scripts. Les exercices et les exemples grandement commentés invitent à une participation active du lecteur avec en tête l'idée que la seule façon pour vraiment apprendre la programmation de scripts est d'écrire des scripts.
On regardera en particulier : la seconde partie, le chapitre 10, le chapitre 14, etc. - Pour utilisateurs débutants ou confirmés : Unix, le Terminal, les Expressions régulières... tout ça est sur le site d’Isabelle Volant. On y retournera souvent donc…
- La documentation de Perl : Article publié dans Linux Magazine 53, septembre 2003. Repris dans Linux Dossiers 2 (avril/mail/juin 2004), "L'objectif de cet article est de vous fournir les moyens de trouver seul la réponse aux questions que vous vous posez, ou au moins de progresser aussi loin que possible avant de finir par poser la question sur un forum ou une liste de discussion."
Ressources pour le cours
Transparents Série 1 (version PDF), "Présentation du cours et du projet, le mini-projet "barrage", ... ou (version HTML) : séances du 13/10/2005, 20/10/2005, 27/10/2005, 03/11/2005, 10/11/2005, 17/11/2005, 24/11/2005.
- Travail du 10 Novembre 2005 : "Automatisation des tâches"
- Travail du 17 Novembre 2005 : "Automatisation des tâches" (suite)
- Travail du 24 Novembre 2005 : "Automatisation des tâches" (suite)
Transparents Série 2 (version PDF) : "Fichiers et systèmes de fichiers"
Transparents Série 3 (HTML) : "Egrep et expressions régulières"
Projets "barrage" : travaux réalisés (sur le site pluriTAL)
Aleksandra Ristic (Inalco/Traductique) et Yannick LAM KIM (Inalco/Ingénierie Multilingue)
Névéna Pantikina (Inalco/Traductique) et Virginie Picard (Paris 3/pluriTAL)
Aurélia Trinquier (Paris 3/pluriTAL) et Claire Bonasso (Inalco/Traductique)
Wu Li-Chi (Paris 3/pluriTAL) et Chachaty Edmond (Paris 3/pluriTAL)
Olga Semenova (Inalco/Traductique) et Ninon Payen (Inalco/Traductique)
Thomas Ragot (Paris 3/pluriTAL), Yann Hiard (Paris 3/pluriTAL) et Samia Achouri (Paris 3/pluriTAL)
HAMRI Nacer (Paris 3/pluriTAL), RATSIMBA Hoby (...) et GAGOUM Parfaite (...)
Faïna Ramdani (Inalco/Traductique) et Sébastien Delahaye (Inalco/Ingénierie Multilingue)
Egle RAMDANI (Paris 3/pluriTAL) et Svetlana TSARKOVA (Inalco/Traductique)
Violeta Ordonez (Paris 3/pluriTAL) et Claire Guiraud (Inalco/Ingénierie Multilingue)
Bruno Raffard (Paris 3/pluriTAL) et Zahir Maafa (Inalco/Ingénierie Multilingue)
Notation des Projets "barrage"
Boîtes à outils
- Travail du 05 janvier 2006 : "Boîte à outils Série 1 : script Perl". Transparents : VERSION PDF (liens inactifs dans le PDF) ou VERSION HTML (avec liens actifs, version "optimisée" pour Internet Explorer)
- Cours du 12 janvier 2006 : "Etiquetage morphosyntaxique"
- Travail du 12 janvier 2006 : "Boîte à outils Série 2 : étiquetage". Transparents : VERSION PDF (liens inactifs dans le PDF) ou VERSION HTML (avec liens actifs, version "optimisée" pour Internet Explorer)
- Rappel : le travail présenté dans Boîte à outils Série 1 et dans Boîte à outils Série 2 est à faire pour le 15/02/2006. Vous envoyez à SF, par mail, une archive contenant une page web avec votre nom et le contenu de vos programmes (et sorties associées)
- Travail du 15 février 2006 : "Boîte à outils Série 3 : Extraction terminologique". Transparents du cours (JMD)
- Travail du 22 février 2006 : "Boîte à outils Série 3 : Extraction terminologique" (la suite).
- Travail du 01 mars 2006 : "Boîte à outils Série 4 : Des textes aux Graphes".
- Travail du 22 mars 2006 : "Boîte à outils Série 5 : Information mutuelle" (ressources complètes zippées)
Boîtes à outils [Séries 1, 2, 3, 4] : travaux réalisés (sur le site pluriTAL)
Achouri Samia (Paris 3/pluriTAL)
Bonasso Claire (Inalco/Traductique)
Chachaty Edmond (Paris 3/pluriTAL)
Delahaye Sébastien (Inalco/Ingénierie Multilingue)
Fedorov Alexey (Inalco/Ingénierie Multilingue)
Gagoun Parfaite (Paris 3/pluriTAL)
Guiraud Claire (Inalco/Ingénierie Multilingue)
Hamri Nacer (Paris 3/pluriTAL)
Hiard Yann (Paris 3/pluriTAL)
Kozhina Natalia (Inalco/Traductique)
Krougovaïa Evguénia (Inalco/Traductique)
Lam Yann (Inalco/Ingénierie Multilingue)
Maafa Zahir (Inalco/Ingénierie Multilingue)
Pantikina Névéna (Inalco/Traductique)
Picard Virginie (Paris 3/pluriTAL)
Ragot Thomas (Paris 3/pluriTAL)
Ramdani Egle (Paris 3/pluriTAL)
Ramdani Faïna (Inalco/Traductique)
Ratsimba Hoby (Paris 3/pluriTAL)
Ristic Aleksandra (Inalco/Traductique)
Schaeffer Raphaël (Inalco/Ingénierie Multilingue)
Semenova Olga (Inalco/Traductique)
Trinquier Aurélia (Paris 3/pluriTAL)
Tsarkova Svetlana (Inalco/Traductique)
Wu Li-Chi (Paris 3/pluriTAL)
Projets (inscription en ligne)
Formulaire d'inscription au projet PluriTAL 2005-2006. Pour accéder à ce formulaire, vous devez utiliser votre adresse mail utilisée sur la liste PluriTAL.
Etat des choix du projet PluriTAL 2005-2006
Projets (répartition)
Projets (présentations)
Projet n°1 dit projet Nuages, animé par Serge Fleury
- Nuages de mots dans le Fils RSS : (1) présentation du projet (texte+slides) (Mise à jour le 06/12/2005); (2) site du projet
Projet n°2 dit projet Multilingue animé par Jean-Michel Daube
- Le projet proposé a pour but, à partir de données textuelles disponibles sur la toile, de produire des ressources linguistiques structurées : présentation du projet
Projet n°3 dit projet Communauté animé par Benoît Habert
- Dégrouper les sens (corpus sur le web ou corpus de presse) : présentation du projet
Travaux sur Projets
Projet Nuages
- Descriptif Travaux Phase 1 : sur le blog pluriTAL
- Descriptif Travaux : présentation complète
- La page Nuages : synthèse des travaux
Projet Multilingue
- La page Multilingue : synthèse des travaux
Projet Communauté
Contrôle des connaissances
Projets, travail personnel...
Bibliographie
cf les slides vus en cours...