#Accueil Fil RSS des dix dernières actualités [new_logo_site.jpg] * [new_icon_fb.gif] * [new_icon_twit.gif] * [new_icon_li.gif] * [new_icon_instag.gif] * [new_icon_youtube.gif] * FORMATION + Formation + Offre de formation + Inscription, Scolarité + Orientation et Carrière + Enseignement à distance + Formation continue * RECHERCHE + Activités scientifiques + Politique scientifique + Maison de la Recherche + Ecoles doctorales + Unités de Recherche + Projets & Valorisation + Etudes Doctorales & HDR * VIE DE CAMPUS + Vie de campus + Vie étudiante + Vie du personnel + Vie culturelle + Vie sportive + Mission handicap + Bibliothèques * INTERNATIONAL + Accueil et actualités Homepage and news + Venir étudier à la Sorbonne Nouvelle Coming to study at Sorbonne Nouvelle University + Partir en mobilité à l'étranger Going abroad on mobility + Stratégie internationale International strategy + Enseignant-Chercheur, Chercheur, Doctorant Teacher-researcher, researcher, PhD student + Mobilité du personnel Staff mobility * UNIVERSITÉ + Université + Gouvernance + Composantes d'enseignement + Services + Projet d'établissement + Campus + Espace presse + Entreprises + Lexique universitaire * Rechercher_____ ok * Vie de campus * Vie étudiante * Vie du personnel + Action sociale + Formation du personnel + Concours + Recrutement + Elections + Syndicats + Personnel et handicap + Médecine de prévention + Retraite * Vie culturelle * Vie sportive * Mission handicap * Bibliothèques __________________________________________________________________ Accueil >> Vie de campus >> Vie du personnel >> Personnels de l'Université Enseignant et/ou chercheur M. Serge FLEURY Corps : MCF - Université Sorbonne Nouvelle - Paris 3 Coordonnées : ILPGA 19 rue des Bernardins 75005 Paris Téléphone : 0685467347 Mél : serge.fleury@sorbonne-nouvelle.fr Adresse site personnel : http://www.tal.univ-paris3.fr/sfleury/ Structure(s) de rattachement : CLESTHIA - Langage, systèmes, discours - EA 7345 ED 622 - Sciences du langage Département : Institut de linguistique et phonétique générales et appliquées (ILPGA) Discipline(s) enseignée(s) Informatique pour la linguistique Licence * Outillage linguistique : Le web en tant que corpus * Informatique et Industries de la langue * Outils de traitement de corpus * Programmation pour le TAL en Perl * Statistique textuelle Master "Ingénierie Linguistique" (plurital.org) * Programmation et projet encadré : Mise en oeuvre d'une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation. Ce cours posera d'abord la question des objectifs linguistiques à atteindre (lexicologie, recherche d'information, traduction...) et fera appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...). Ce cours sera aussi l'occasion d'une évaluation critique des résultats obtenus, d'un point de vue quantitatif et qualitatif. * Document structuré : Les textes sont des documents structurés. Un article comporte un titre, un ou des auteur(s), des sections, une bibliographie. La présentation permet d'appréhender cette structure (taille des caractères, jeu sur le gras, etc.). Lorsqu'on rend explicite cette structure (par le moyen de balisages en XML), on peut manipuler le texte comme unité structurée (extraire automatiquement les titres pour une table des matières, chercher les paragraphes introductifs, etc.). Le cours présente la manière de rendre explicite et fiable la structure des documents (en les assortissant d'une « grammaire textuelle » dite DTD). Il aborde les transformations réglées de textes qui deviennent possibles. Fonction(s) Maître de Conférences en linguistique informatique Thèmes de recherche Activités de recherche * Textométrie * Traitement Automatique du Langage * Analyse automatique * Langages à prototypes * Documents Structurés * Hypertextes * Analyse du Web * Web Mining * Collecte et analyse de corpus sur le Web * Traitements quantitatifs Projets en cours * Page Projets Nouveaux projets : * Projet ANR E-CALM * Projet Ecriscol * Projet ANR NAIJA Publications Liste des publications Développement de logiciels Le Trameur : http://www.tal.univ-paris3.fr/trameur/ (version en ligne) iTrameur : http://www.tal.univ-paris3.fr/trameur/iTrameur/ Dans une perspective lexicométrique / textométrique, représentation du texte en machine sous la forme d'une Trame et d'un Cadre (i.e le métier textométrique), pour ensuite réaliser des calculs textométriques. L'objectif principal de la textométrie est de compter des éléments (des contenus textuels) dans des ensembles (des contenants regroupant des unités élémentaires d'un texte ou des zones de texte couvrant un certain nombre ou un certain type d'unités élémentaires). * Les contenus se réalisent sous la forme de ressources textuelles (une séquence de caractères organisée en phrases, en paragraphes etc.). * Les contenants existent sous la forme de système de masques ou de calques que l'on peut définir sur les contenus. Il s'agit de systèmes d'annotations que l'on peut définir sur tout ou partie des zones textuelles, ces annotations constituant en retour des accès sur les parties textuelles qu'elles définissent (le marquage des phrases ou des paragraphes étant un exemple d'annotation particulier pour décrire un certain niveau de la structure du texte). Le processus de comptage nécessite au préalable d'identifier les contenus et les contenants. Ce préalable consiste à expliciter une segmentation du texte conduisant à la mise au jour d'une Trame sur laquelle des annotations pourront se greffer ultérieurement. Trame et Cadre : les objets de la textométrie A partir d'un texte segmenté, la numérotation des items découpés dans le texte de départ permet de constituer un système de coordonnées sur le texte dans lequel chaque item est repéré par son numéro d'ordre. Nous appelons ce système de coordonnées sur la séquence textuelle : la Trame textométrique. Ce même système de coordonnées permet de définir et de localiser, au sein du corpus, des zones textuelles (zones formées par une suite d'items consécutifs, entre la position x[1] et la position x[2], réunion d'un certain nombre de zones de ce type, etc.). La définition d'une Trame textométrique sur un corpus de textes permet de décrire les systèmes de zones qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, phrases, sections, chapitres etc.). On peut rassembler les descriptions relatives aux systèmes de contenants dans une structure de données particulière le Cadre textométrique. Nous appelons Trameur l'outil informatique qui permet de construire une ressource textométrique Trame/Cadre, à partir d'une ensemble de textes rassemblés en corpus, selon les principes définis plus haut. La partie Trame de la ressource textuelle produite par le Trameur est constituée par la suite des items isolés lors de l'opération de segmentation. La partie Cadre rassemble les données relatives aux différents découpages réalisés sur le corpus. La transmission d'une ressource textuelle constituée sous la forme Trame/Cadre (une base textométrique) constitue une solution suffisante pour servir de base à toute exploration textométrique ultérieure. Le Trameur intègre le programme treetagger : système d'étiquetage automatique des catégories grammaticales des mots avec lemmatisation. Le Trameur est disponible en 2 versions : la " version Tk " et la "version console". Lectures : [Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle (DOC) [Fleury, 2013], Serge Fleury. Le Trameur. Propositions de description et d'implémentation des objets textométriques, (PDF), (texte en cours). Documentation : format PDF, format HTML mkAlign 2.00 http://www.tal.univ-paris3.fr/mkAlign/ Le programme mkAlign permet de construire ou de corriger un alignement de 2 textes puis de produire une version XML du bi-texte aligné. Version exécutable pour Windows. Doc HTML, Doc PDF URL projet : http://www.tal.univ-paris3.fr/mkAlign/. La notion de corpus parallèle, qui émerge actuellement dans les travaux de différents chercheurs comme : corpus comportant plusieurs volets qui correspondent chacun à une version d'un même texte dans deux ou plusieurs langues différentes, renvoie à des situations connues de coexistence de textes présentant des liens forts dans leur structuration. Le traitement de corpus parallèles suppose une phase préalable d'alignement , c'est-à-dire de mise en correspondance dans chacun des volets de différents types d'unités textuelles [Zimina, 2004]. Aligner des corpus de textes originaux et de leurs traductions c'est mettre en relation des unités textuelles qui se correspondent. On peut établir des correspondances entre des unités de différents niveaux : mots, syntagmes, phrases, paragraphes, sections, etc. Le programme mkAlign permet de construire, corriger et visualiser un alignement de deux textes via un éditeur à double entrée. Il permet d'afficher simultanément les textes source et cible pour y rajouter ou corriger des segments équivalents. Ce programme n'est pas (seulement) un aligneur automatique. Il est conçu pour aider l'utilisateur dans la création, l'alignement, la correction et la validation de textes traduits. L'utilisateur garde la maîtrise sur l'ensemble de ces processus, depuis la mise en correspondance initiale des segments équivalents jusqu'à l'export final du bi-texte produit. Il appartient à l'utilisateur de construire l'alignement et de définir son degré de précision (résolution). Cette résolution peut varier pour mettre en évidence les correspondances entre les segments textuels des différents niveaux. La notion de sauvegarde de session de travail (création de fichiers d'export/import de bi-textes au format xml et html) permet de commencer le travail sur un corpus à deux volets textuels, l'exporter au format désiré, puis le réimporter plus tard pour y apporter des modifications. La visualisation de l'alignement dans une représentation cartographique (bi-text map) offre plusieurs possibilités de gestion de corpus qui partagent des similitudes au plan traductionnel. makeMetadata 2.00 Le programme makeMetadata permet de générer ou de corriger des métadonnées. Version exécutable pour Windows. HTML, Doc PDF Activités / CV * CV complet mise à jour le 21 janvier 2018 __________________________________________________________________ Photo Serge Fleury M. Serge FLEURY Recherche dans l'annuaire Recherche dans l'annuaire Nom ____________________ Prénom ____________________ Type de population [Tous______________________] Fonction ____________________ Discipline [Toutes________________________________________________________________ _______...] Thème de recherche ____________________ Structure ____________________ [BUTTON Input] (not implemented)_________ Effacer Valider [new_logo_site.jpg] * Haut de la page * | Contact * | Plan du site * | Mentions légales * |