Serge Fleury Web : Recherche, enseignement, Galerie virtuelle

[In-Progress | Publications | Conférence-Séminaire | Thèse] (MàJ : 01/09/2019 par SergeFleury .)

In-Progress

[2014..2015] Fleury Serge, Le Trameur. Base textométrique de textes alignés, (PDF).

[2013..2015] Fleury Serge, Annotations Rhapsodie pour le Trameur (v8), (PDF)

[2013] Fleury Serge, Le Trameur. Propositions de description et d’implémentation des objets textométriques, (PDF).

Publications

[2020] Lydia-Mai Ho-Dac, Serge Fleury, Claude Ponton. E:Calm Resource: a Resource for Studying Texts Produced by French Pupils and Students. LREC, May 2020, Marseille, France. ⟨hal-02868859⟩

[2019a] Lacheret-Dujour, Anne, Guillaume Desagulier, Serge Fleury and Frédéric Isel, “Chapter 17. The distribution of prosodic features in the Rhapsodie corpus”. In Rhapsodie: A prosodic and syntactic treebank for spoken French, 315–338, John Benjamins Publishing Company

[2019b] Lacheret-Dujour, Anne, Sylvain Kahane, Rachel Bawden, Serge Fleury and Ilaine Wang, “Chapter 15. Exploration of the Rhapsodie corpus”. In Rhapsodie: A prosodic and syntactic treebank for spoken French, 271–283, John Benjamins Publishing Company

[2019c] Claire Doquet, Serge Fleury. EcriScol Ecritures Scolaires. Linguistique : enjeux et défis au XXI° siècle, Jun 2019, Paris, France. ⟨hal-02883371⟩

[2018] Zimina M., Fleury S. "Mémoire de traduction [MT] : approche paradigmatique." Equivalences Numéros 45/1-2, "Des unités de traduction à l’unité de traduction". Sous la direction de C. Balliu, N. Froeliger, L. Hewson.

[2017a] E. Née (dir.) S. Fleury, C. Barats, J.-M. Leblanc, F. Sitri, M. Veniard (2017), Méthodes et outils informatiques pour l’analyse du discours, Presses Universitaires de Rennes. http://www.pur-editions.fr/detail.php?idOuv=4428

[2017b] David, J., Doquet, C., Fleury, S. (eds) "Spécificités et contraintes des grands corpus de textes scolaires : problèmes de transcription, d’annotation et de traitement". Revue Corpus, 16. URL : http://journals.openedition.org/corpus/2725. Janvier 2017.

[2017c] Claire Doquet, Jacques David et Serge Fleury, « Introduction », Corpus [En ligne], 16 | 2017, mis en ligne le 18 novembre 2017, consulté le 21 janvier 2018. URL : http://journals.openedition.org/corpus/2727

[2017d] Claire Doquet, Vanda Enoiu, Serge Fleury et Sara Maziotti, « Problèmes posés par la transcription et l’annotation d’écrits d’élèves », Corpus [En ligne], 16 | 2017, mis en ligne le 06 janvier 2018, consulté le 21 janvier 2018. URL : http://journals.openedition.org/corpus/2776

[2017e] Née, E., Sitri, F., Veniard, M., Fleury, S. "Routines discursives et séquentialité dans des écrits professionnels : la mise au jour d'une séquence évaluative ?". Corpus [En ligne], 17 | 2017, mis en ligne le 15 janvier 2018, consulté le 20 janvier 2018. URL : http://journals.openedition.org/corpus/2880

[2016a] Kübler N., Zimina M., Fleury S. "Origines des erreurs en Traduction Spécialisée : différentiation textométrique grâce aux corpus de textes cibles annotés". Actes de l'atelier Enseignement des langues et TAL (ELTAL), JEP-TALN-RECITAL 2016. URL : kubler-zimina-fleury-article.pdf, https://jep-taln2016.limsi.fr/actes/Actes%20JTR-2016/V09-ELTAL.pdf

[2016b] Patin S., Zimina M., Fleury S. "Lecture Textométrique Différentielle (LTD) de textes législatifs comparables de l’Union européenne". Actes des 13es Journées internationales d'Analyse statistique des Données Textuelles, Nice, 7-10 juin 2014. URL : http://jadt2016.sciencesconf.org/82326/document

[2016c] Veniard M., Fleury S. "Les manifestations textométriques de la saillance lexicale. Expérimentations et tentative de caractérisation". Actes des 13es Journées internationales d'Analyse statistique des Données Textuelles, Nice, 7-10 juin 2014. URL : http://jadt2016.sciencesconf.org/83275/document

[2015] Zimina Maria, Fleury Serge, "Perspectives de l’architecture Trame/Cadre pour les alignements multilingues". Nouvelles perspectives en sciences sociales : revue internationale de systémique complexe et d'études relationnelles, volume 11, numéro 1, novembre 2015.
http://www.erudit.org/revue/npss/2015/v11/n1/index.html
[Résumé]

[2014a] Maria Zimina, Serge Fleury, Trameur: A Framework for Annotated Text Corpora Exploration, Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: System Demonstrations, August 2014, Dublin, Ireland, pages 57-61,

[2014b] Emilie Née, Jean-Michel Daube, Mathieu Valette, Serge Fleury (éditeurs), Actes JADT 2014 "Journées Internationales d'Analyse Statistiques des Données Textuelles", Paris, 3-6 juin 2014, http://lexicometrica.univ-paris3.fr/jadt/jadt2014/

[2014c] Maria Zimina, Serge Fleury, "Approche systémique de la résonance textuelle multilingue", in Actes JADT 2014, Journées Internationales d'Analyse Statistiques des Données Textuelles, Paris 2014,

Résumé

Dans un bi-texte, les Trames textométriques en correspondance sont matérialisées à la fois par des correspondances lexicales et des équivalences fonctionnelles de traits linguistiques corrélées. Pour en tenir compte au cours de l’alignement de textes, nous proposons une approche systémique de la résonance textuelle multilingue qui mobilise simultanément plusieurs niveaux d’analyse linguistique. L’approche est présentée à l’aide d’une série d’explorations textométriques du corpus comparable BBC_Lenta.RU. Il est composé de textes d’actualités diffusés en anglais par la chaîne britannique BBC entre 2001 et 2005, et de leurs traductionsadaptations en russe publiées par le site web Lenta.ru.

[2014d] Emilie Née, Frédérique Sitri et Serge Fleury, "L’annotation du pronom « nous » dans un corpus de rapports éducatifs. Objectifs, méthodes, résultats", in Actes JADT 2014, Journées Internationales d'Analyse Statistiques des Données Textuelles, Paris 2014,

Résumé

Cet article vise à présenter les objectifs, la méthode et les premiers résultats d’un travail en cours sur l’annotation de la forme nous dans un corpus de rapports éducatifs produits par des travailleurs sociaux dans le cadre de la protection de l’enfance, corpus constitué au sein de l’ANR Ecritures. Ce travail se situe dans le cadre d’une analyse de discours outillée par la textométrie, qui vise à mettre en évidence des « routines » discursives.

[2013] LARDILLEUX A., FLEURY S., CISLARU G., Allongos: Longitudinal Alignment for the Genetic Study of Writers’ Drafts, Computational Linguistics and Intelligent Text Processing, Lecture Notes in Computer Science, Volume 7817, 2013, pp 537-548.
http://link.springer.com/chapter/10.1007/978-3-642-37256-8_44

Abstract

We present Allongos, a procedure capable of aligning multiple drafts for genetic text analysis purposes. To our knowledge, this is the first time a complete alignment is attempted on the longitudinal axis in addition to the textual axis, i.e. all drafts that lead to the production of a text are consistently aligned together, taking word shifts into account. We propose a practical interface where differences between successive drafts are highlighted, giving the user control over the drafts to be displayed and automatically adapting the display to the current selection. Our experiments show that our approach is both fast and accurate.

[2012a] S. Branca-Rosoff, S. Fleury, F. Lefeuvre, M. Pires, Discours sur la ville. Corpus de Français Parlé Parisien des années 2000 (CFPP2000)

Résumé

Cet article présente le corpus CFPP2000, composé d'un ensemble d'interviews sur les quartiers de Paris et de la proche banlieue, accessibles sans restriction à l'adresse suivante : http://cfpp2000.univ-paris3.fr/. Nous abordons successivement les objectifs du projet, les choix opérés pour recueillir et organiser les données, et les outils informatiques qui sont en ligne pour aider les chercheurs à les exploiter. Nous terminons par quelques exemples d'analyse menées à partir de CFPP2000 : le fonctionnement syntaxique de quoi périphérique, les commentaires métalinguistiques concernant les parlures populaires, l'usage du couple par contre/en revanche, le topos qui rapproche quartier urbain et village

[2012b] Emilie Née, Erin MacMurray, Serge Fleury (SYLED - EA 2290), "Textometric Explorations of Writing Processes: A Discursive and Genetic Approach to the Study of Drafts", in Actes JADT 2012, Journées Internationales d'Analyse Statistiques des Données Textuelles, 2012

Abstract

The Textometric method, the observation of variations, has yet to be applied to the study of the writing process, the different stages of writing the same text. This paper uses Textometry for the study of four social workers’ reports on children “at risk”. The Textometric method is used to analyze the discursive and pragmatic patterns employed by the social workers and their description of “what’s wrong” with the child at various stages of the writing process.

Résumé

La méthode Textométrique n’a pas été appliquée encore à l’étude des processus d’écriture, des différentes versions d’un même texte. Cette étude utilise la Textométrie pour l’analyse de quatre rapports des travailleurs sociaux sur des enfants « en danger ». La méthode Textométrique est utilisée dans l’analyse des stratégies discursives et pragmatiques mises en place par les travailleurs sociaux lors de leur description de « ce qui ne va pas » avec l’enfant au cours de différents états du processus d’écriture.

[2012c] Serge Fleury, Florence Lefeuvre, Mat Pires, Quoi dans le Corpus du français parlé parisien : Etude syntaxique, discursive, lexicométrique et sociolinguistique du mot quoi dans le Corpus du français parlé parisien des années 2000, Hommage à Sonia Branca-Rosoff - Regards croisés sur la langue française: usages, pratiques, histoires (dir. J. Doggen & Y. Grinshpun), Presses de la Sorbonne Nouvelle, 2012. https://halshs.archives-ouvertes.fr/halshs-01143334

[2011a] Serge Fleury & Sonia Branca-Rosoff, Textométrie et analyse de l’alternance futur simple / futur périphrastique dans un corpus de français parlé parisien, Sciences du langage et nouvelles technologies (ASL’09), édité par Th. Ponchon et I. Laborde-Milaa (2011), Lambert Lucas

Cet ouvrage constitue les actes du colloque organisé par l’Association des Sciences du Langage le 5 décembre 2009 à la Sorbonne, avec le soutien de l’université Paris-Sorbonne (Paris IV) et de son équipe d’accueil Sens - Texte - Informatique - Histoire. Les liens entre la linguistique et les nouvelles technologies sont déjà anciens. N’ont-ils pas présidé, du côté anglais, à la naissance de l’informatique au cours de la deuxième guerre mondiale ? Les progrès accomplis depuis les débuts du traitement automatique des langues, les outils linguistiques intégrés aux logiciels « grand public », développés et exploités par les « industries de la langue » et par les laboratoires de recherche, montrent la part prise par les nouvelles technologies dans l’avancement des sciences du langage. Réalisés dans les deux domaines grâce à leurs synergies, ces progrès méritent d’être régulièrement portés à la connaissance de la communauté scientifique ; c’était l’objectif du colloque dont ces actes rendent compte en donnant à voir un échantillon des apports des nouvelles technologies à la recherche en sciences du langage.

[2011b] Sonia Branca-Rosoff, S. Fleury, F. Lefeuvre, M. Pires Constitution et exploitation d'un corpus de français parlé parisien. Contraintes et apports possibles de la langue au texte, Corpus 10 "varia" http://corpus.revues.org/

[2010] Serge Fleury & Sonia Branca-Rosoff, Une expérience de collaboration entre linguiste et spécialiste de TAL : L'exploitation du corpus CFPP 2000 en vue d'un travail sur l'alternance Futur simple / Futur périphrastique, Cahiers AFLS Volume 16 Issue 1 (2010), ISSN: 1756-4476

Résumé

Cet article porte sur la description des usages de deux tiroirs verbaux, le futur simple (FS) et le futur périphrastique (FP) dans un corpus d’interviews réalisées auprès de Parisiens (CFPP2000).Il s’agit pour nous de valoriser les ressources fournies par le corpus c’est-à-dire (i) de montrer que l’on peut apprendre des choses intéressantes sur le fonctionnement des deux formes FS et FP en partant d’activités langagières observables et de faits linguistiques attestés – et pas seulement de jugements d’acceptabilité introspectifs et d’exemples “cruciaux” forgés par des linguistes. (ii) de montrer l’aide apportée par les applications informatiques et statistiques qui viennent aider les descripteurs, tout en mettant en garde contre toute utilisation non contrôlée des résultats obtenus. Nous nous aidons d’un étiqueteur automatique, TreeTagger et d’un logiciel de Textométrie, le Trameur. Les données sont suffisamment nombreuses (300 000 mots au moment où l’étude a été réalisée) pour pouvoir envisager les valeurs spécifiques de chaque futur, examiner les cas où les deux formes sont en concurrence et voir si les corpus oraux apportent des arguments en faveur des théories qui s’affrontent sur l’étude de ces temps. Un autre intérêt du corpus est qu’il est assez homogène en ce qui concerne le genre pratiqué (des entretiens dont la plupart sont des trilogues favorisant des échanges détendus), cependant que varient le niveau d’études, le métier, l’âge, etc. des locuteurs. Il permet donc une première approche de la variation sociolinguistique à l’oeuvre chez des Parisiens natifs d’origine.

[2009a] S. Branca-Rosoff, S. Fleury, F. Lefeuvre, M. Pires, Discours sur la ville. Corpus de Français Parlé Parisien des années 2000 (CFPP2000)

Résumé

Cet article présente le corpus CFPP2000, composé d'un ensemble d'interviews sur les quartiers de Paris et de la proche banlieue, accessibles sans restriction à l'adresse suivante : http://cfpp2000.univ-paris3.fr/. Nous abordons successivement les objectifs du projet, les choix opérés pour recueillir et organiser les données, et les outils informatiques qui sont en ligne pour aider les chercheurs à les exploiter. Nous terminons par quelques exemples d'analyse menées à partir de CFPP2000 : le fonctionnement syntaxique de quoi périphérique, les commentaires métalinguistiques concernant les parlures populaires, l'usage du couple par contre/en revanche, le topos qui rapproche quartier urbain et village

[2009b] S. Fleury, Exploration du corpus Traductions alignées du discours d’investiture de B. Obama (Tutoriel n°3, Explorations Textométriques avec mkAlign)

Résumé

Les tutoriels de la série Explorations Textométriques doivent permettre à l'utilisateur débutant de Lexico3 et de mkAlign de se familiariser avec les différentes fonctionnalités de ces logiciels, à partir de corpus de recherche concrets et, au delà de cette prise en main, d'entrevoir quelques-unes des possibilités offertes par l'approche textométrique des corpus de textes. Le Tutoriel n°3, Investiture Obama, est consacré à l'étude d'un corpus aligné avec mkAlign

[2009c] [Fleury Serge, Salem André et co-auteurs], Explorations textométriques, http://lexicometrica.univ-paris3.fr/numspeciaux/special8.htm. Volume 1 : corpus et problèmes, Volume 2 : séries textuelles chronologiques, Volume 3 : corpus multilingues

Résumé

Nous avons rassemblé plusieurs compte-rendus d'expériences réalisées avec les logiciels de la famille Lexico au cours de nombreuses recherches et dans le cadre de collaborations diverses. Les navigations rassemblées ici ont été choisies pour mettre en évidence la très vaste gamme des domaines d'application des méthodes textométriques ainsi que les fonctionnalités des logiciels Lexico3 et mkAlign. Elles sont publiées sous la forme de trois volumes (volume 1 : corpus et problèmes, volume 2 : séries textuelles chronologiques, volume 3 : corpus multilingues).

[2008] Maria Zimina, Serge Fleury, (CLAT2T (SYLED) - EA 2290), "Utilisations de mkAlign pour la traduction philologique", in Actes JADT 2008, Journées Internationales d'Analyse Statistiques des Données Textuelles, Lyon 2008,

Résumé

Nous proposons une approche de l'analyse de la traduction assistée par ordinateur qui permet de comparer le texte original avec ses variantes de traduction en soulignant les convergences/divergences des versions. Elle peut présenter de réels avantages pour le travail de traduction philologique.

[2007a] Serge Fleury, Maria Zimina (CLAT2T (SYLED) - EA 2290), "Exploring Translation Corpora with MkAlign", in Translation Journal, Volume 11, No. 1 January 2007. http://accurapid.com/journal/39mk.htm

Abstract

This paper presents a series of experiments devoted to the development of a new tool for multilingual textometric exploration of translation corpora. We propose to use bitext topography to facilitate the study of lexical equivalencies on quantitative bases. The suggested approach opens up new horizons for interactive exploration of translation resources of multilingual texts in a variety of fields of study: translation, foreign language learning and teaching, bilingual terminology, lexicography, etc..

[2007b] Serge Fleury (EA2290 SYLED/CLA2T), "Le Trameur, Manuel d'utilisation", (mise à jour 2015)

Résumé

A partir d'un texte segmenté, la numérotation des items découpés dans le texte de départ permet de constituer un système de coordonnées sur le texte dans lequel chaque item est repéré par son numéro d'ordre. Nous appelons ce système de coordonnées sur la séquence textuelle : la Trame textométrique. Ce même système de coordonnées permet de définir et de localiser, au sein du corpus, des zones textuelles (zones formées par une suite d'items consécutifs, entre la position x1 la position x2, réunion d'un certain nombre de zones de ce type, etc.). La définition d'une trame textométrique sur un corpus de textes permet de décrire les systèmes de zones qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, phrases, sections, chapitres etc.). On peut rassembler les descriptions relatives aux systèmes de contenants dans une structure de données particulière le Cadre textométrique. Nous appelons trameur l'outil informatique qui permet de construire une ressource textométrique trame/cadre, à partir d'une ensemble de textes rassemblés en corpus, selon les principes définis plus haut. La partie trame de la ressource textuelle produite par le trameur est constituée par la suite des items isolés lors de l'opération de segmentation. La partie cadre rassemble les données relatives aux différents découpages réalisés sur le corpus ainsi que les annotations déjà projetées sur les contenants ou les contenus constitués lors des étapes précédentes. La transmission d'une ressource textuelle constituée sous la forme trame/cadre constitue une solution suffisante pour servir de base à toute exploration textométrique ultérieure.
([Söze-Duval, 2008] Keyser Söze-Duval. Pour une textométrie opérationnelle (DOC)
Le Trameur : Programme de génération puis de gestion de la Trame et du Cadre d'un texte (le métier Textométrique) pour construire des opérations lexicométriques / textométriques. Le Trameur intègre le programme treetagger : système d'étiquetage automatique des catégories grammaticales des mots avec lemmatisation.

[2006a] [Fleury Serge, Salem André et co-auteurs], Explorations textométriques, http://www.tal.univ-paris3.fr/lexico/navigations-tdm.xml (mise à jour 2009)

[2006b] Cédric Lamalle, Serge Fleury, André Salem (EA2290 SYLED/CLA2T), "Vers une description formelle des traitements textométriques", in Actes JADT 2006, Journées Internationales d'Analyse Statistiques des Données Textuelles, Besançon 2006

Résumé

Différents logiciels de textométrie applicables aux corpus de textes informatisés mettent en œuvre des combinaisons variables de méthodes statistiques à partir de formats d'entrée qui leur sont propres. Ces logiciels produisent des résultats dans des formats qui constituent souvent un obstacle à leur comparaison. On tente ici d'esquisser une description générique des objets intermédiaires manipulés par ces logiciels (segmentations, partitions, tableaux de décomptes) qui permettrait à la fois : de mieux décrire ces objets, de permettre leur transmission d'un logiciel à l'autre, de comparer les séquences de traitement et de permettre une meilleure confrontation des résultats finaux.

[2006c] Calberg-Challot Marie (Framatome ANP, UMR 7597 CNRS - Université Paris 7), Candel Danielle (UMR 7597 CNRS - Université Paris 7, Fleury Serge (CLAT2T (SYLED) - EA 2290), "'Nucléaire' et 'Atomique', deux formes concurrentielles dans le domaine du nucléaire", in Actes JADT 2006, Journées Internationales d'Analyse Statistiques des Données Textuelles, Besançon 2006

Résumé

Bien que les termes "atomique" et "nucléaire" relèvent de vocabulaires de spécialité, on leur attribue des valeurs fluctuantes, parfois voisines ou même synonymiques, d'autres fois antonymiques. Comment vérifier, repérer et identifier les éléments d'une telle variation lexicale, et les motivations d'usages si divers ? C'est à ces questions que nous tenterons d'apporter des réponses. Ainsi, après une présentation historique des termes "atomique" et "nucléaire", nous présenterons, au moyen d'une exploration lexicométrique, des pistes pour l'étude des variations d'usages et d'emplois de ces deux termes, dans un ensemble de corpus et chez divers auteurs.

[2006d] Gendrot, C. et Fleury, S. Rapport scientifique et financier du Projet innovant 2005-2006 : "Propositions de normalisation pour une base de corpus multimédia à l'ED 268". Texte disponible en ligne :

[2005a] Serge Fleury (EA2290 SYLED/CLA2T), "Un corpus de veille : le journal Le Monde", http://www.tal.univ-paris3.fr/sfleury/veille.htm.

Résumé

Ce document présente d’une part (Partie 1) l’architecture construite pour traiter les fils RSS mis à disposition sur le site Web du journal Le Monde (d’autres fils sont aussi traités dans cette architecture, en particulier celui du site de l’AFP) et d’autre part (Partie 2) l'architecture mise en œuvre pour construire et analyser un corpus chronologique de la version électronique du journal Le Monde.

[2005b] Serge Fleury, Maria Zimina (EA2290 SYLED/CLA2T), "mkAlign, Manuel d'utilisation", Version HTML, (mise à jour 2012)

Résumé

Le programme mkAlign permet de construire et visualiser l'alignement de deux textes en modifiant au besoin la correspondance entre leurs segments respectifs. Ce programme n'est pas un aligneur automatique. Il appartient à l'utilisateur de construire l'alignement et de définir son degré de précision (résolution). Cette résolution peut varier pour mettre en évidence les correspondances entre les segments textuels des différents niveaux.

[2004a] Valérie Beaudouin, Serge Fleury, Marie Pasquier "Les pages personnelles comme terrain d'expérimentation", in les Carnets du Cediscor, n°8, "Les discours de l'Internet : nouveaux corpus, nouveaux modèles", S. Reboul-Touré, F. Mourlhon-Dailles, F. Rakotonoelina (éds.), Presses de la Sorbonne Nouvelle, http://psn.univ-paris3.fr

Résumé

Les pages personnelles sont des espaces de publication Web offerts par les fournisseurs d'accès ou par des portails à leurs clients ou visiteurs. L'adjectif "personnel" sous-entend que l'instance d'énonciation est un individu et que le contenu lui-même renvoie à la personne. Pour autant, peut-on considérer que les pages personnelles constituent un genre spécifique ? Nous avons montré que les sites personnels se distinguaient des sites marchands par l'emploi des pronoms personnels et par la structure des liens hypertextuels. Par delà ces deux catégories de traits, y a-t-il d'autres éléments qui assurent l'autonomie du genre, outre le nom qui les désigne ? Pour le savoir, nous avons constitué un corpus des 100 000 pages personnelles visitées par une cohorte d'un millier d'internautes extraite d'un panel entre janvier et juin 2000. Nous montrons que les pages personnelles partagent une fonction de terrain d'expérimentation (elles ont une fonction de brouillon) et constituent un lieu d'apprentissage de l'écriture hypertextuelle qui est amené à évoluer.

[2004b] Rapport final Projet RNRT financé par le Ministère de l'économie, des finances et de l'industrie "SENSNET, catégorisation sémantique des usages et des parcours sur internet". Partenaires : France Télécom - Division R&D, Nielsen//Netratings, LIMSI - CNRS, Paris III (François Deshaies, Arnaud Bergé, Jean-François Vincent (Keyrus Software), Houssem Assadi, Thomas Beauvisage, Dominique Cardon, Julia Velkovska, Julien Figeac , Thomas Beauvisage, Thomas de Bailliencourt, Cezary Ziemlicki, Valérie Beaudouin, Christian Licoppe (France Télécom R&D), Laurent Arbues, Laurent Nicolas (Nielsen//NetRatings), Duy Thai (Alcyne), Martine Hurault-Plantet, Benoît Habert, Michèle Jardino, Jessica Brunet(CNRS-LIMSI) , Eric Dagiral (Université de Marne-la-Vallée), Serge Fleury (Paris III))

Résumé

Le projet SensNet se structure autour de quatre objectifs principaux. Le premier objectif est de constituer un prototype de plateforme de catégorisation automatique des contenus et des usages de l'Internet. Le deuxième objectif consiste à identifier les traits formels et textuels pertinents pour caractériser les objets du Web qui seront capturés dans la plateforme et à mettre au point des méthodes de traitement adaptées à chaque type de traits. Le troisième objectif est d'explorer de manière approfondie certains usages particuliers d'Internet. Enfin, le dernier objectif correspond à la démarche de validation des outils.

[2002a] Valérie Beaudouin, Serge Fleury, Marie Pasquier, Benoît Habert, Christian Licoppe, "TyPWeb : décrire la Toile pour mieux comprendre les parcours. Sites Personnels et sites marchands", in RESEAUX, Volume 20, n°116/2002, "Parcours Sur Internet", pages 19-52, FT&RD/Hermès

Résumé

L'analyse des parcours sur internet ne peut être faite sans passer par une description fine des pages visitees. Nous proposons une methodologie d'analyse des documents hypertextuels qui s'appuie sur l'identification de traits de structure (structure des liens, description des elements de la page), de presentation (polices utilisees, fonds d'ecran...) et de contenus (pronoms personnels, contenu textuel...). Cette methode de description appliquee à des corpus de sites permet de mettre au jour les specificites des sites personnels par rapport aux sites marchands, ce qui vise à mieux comprendre l'articulation de la sphere non marchande avec la sphere marchande. Ensuite, sur un corpus des pages personnelles visitees, cette methode conduit à differencier des types de documents et à comprendre l'articulation entre les caracteristiques des pages et la maniere dont s'organisent les visites

[2002b] Salem André, Fleury Serge, La fouille de données textuelles Rapport de contrat avec France-Télécom

[2001a] Valérie Beaudouin, Serge Fleury, Benoît Habert, Gabriel Illouz, Christian Licoppe, Marie Pasquier, "TyPWeb : décrire la Toile pour mieux comprendre les parcours", CIUST'01, Colloque International sur les Usages et les Services des Télécommunications, e-Usages, Paris, 12-14 juin

Résumé

Parallèlement et en interaction avec une analyse des parcours des internautes et des entretiens auprès des concepteurs de sites, est développée une architecture, TyPWeb, permettant l’analyse des sites sur les plans textuel, structurel et hypertextuel. Nous présentons cette architecture, les problèmes qu’elle affronte et les solutions que nous avons retenues. Nous montrons les distinctions qu’elle permet de mettre en évidence entre des échantillons significatifs de sites personnels et de sites marchands, à partir de l’examen des liens au sein des sites et des sites vers l’extérieur, mais aussi à partir de lexiques déterminés (pronoms personnels, mots outils, mots anglais ou français très fréquents).

[2001b] Cédric Lamalle, William Martinez, Serge Fleury, André Salem, Andrea Kuncova, Aude Maisondieu, "Dix premiers pas avec Lexico3", Manuel d'utilisation abrégé , (Version HTML) (sur le site de Lexico)

[2000a] G. Illouz (LIMSI-Université Paris XI), B. Habert, S. Fleury, H. Folch, S. Heiden, P. Lafon, S. Prévost (UMR 8503-ENS Fontenay/St-Cloud), "Profilage de textes : cadre de travail et expérience", in Actes JADT 2000, 5es Journées Internationales d'Analyse Statistiques des Données Textuelles, 9-10-11 Mars 2000, Lausanne.

Résumé

Le recours croissant aux « très grands corpus » en Traitement Automatique des Langues (TAL) comme en analyse textuelle suppose de maîtriser l’homogénéité lexicale, morpho-syntaxique et syntaxique des données utilisées. Cela implique en amont le développement d’outils de calibrage de textes. Nous mettons en place de tels outils et la méthodologie associée dans le cadre de l’appel d’offres ELRA Contribution à la réalisation de corpus du français contemporain. Nous montrons sur les discours radio-télévisés de De Gaulle et de Mitterrand les premiers résultats de cette approche. Nous tirons les conséquences de cette expérience pour les traits que nous employons pour profiler les textes .

[2000b] Valérie Beaudouin, Julia Velkovska (R&D, France Telecom), Serge Fleury (UMR 8503-ENS Fontenay/St-Cloud), "Etudes des échanges électroniques sur internet et intranet : forums et courriers électroniques", in Actes JADT 2000, 5es Journées Internationales d'Analyse Statistiques des Données Textuelles, 9-10-11 Mars 2000, Lausanne. (Version HTML)

Résumé

Ce travail propose une étude des échanges électroniques sur le réseau. Nous présentons ici la démarche suivie pour l’étude conjointe d’un corpus d’échanges sur des forums publics et sur des forums d’entreprise et d’un corpus de courriers électroniques. Cette étude est complétée par des enquêtes menées auprès des acteurs de ces échanges. Nous esquissons également une démarche d’analyse globale de l’espace de communication sous-jacent qui prend en compte l’analyse de sites web.

[2000c] G. Illouz (LIMSI-Université Paris XI), B. Habert, S. Fleury, H. Folch, S. Heiden, P. Lafon, S. Prévost (UMR 8503-ENS Fontenay/St-Cloud), "Typtex : Generic Features for Text Profiler", in Actes RIAO 2000, 12-14 avril 2000, Collège de France, Paris.

Résumé

The increasing use of methods in natural language processing (NLP) which are based on huge corpora require that the lexical, morpho-syntactic and syntactic homogeneity of texts be mastered. We have developed a methodology and associate tools for text calibration or "profiling" within the ELRA benchmark called "Contribution to the construction of contemporary french corpora" based on multivariate analysis of linguistic features. We have integrated these tools within a modular architecture based on a generic model allowing us on the one hand flexible annotation of the corpus with the output of NLP and statistical tools and on the other hand retracing the results of these tools through the annotation layers back to the primary textual data. This allows us to justify our interpretations.

[2000d] Helka Folch, Serge Heiden, Benoît Habert, Serge Fleury, Pierre Lafon, Julien Nioche, Sophie Prévost (UMR 8503-ENS Fontenay/St-Cloud), Gabriel Illouz (LIMSI-Université Paris XI), "TyPTex : Inductive typological text classification analysis for NLP systems tuning/evaluation", in Second International Conference on Language Resources and Evaluation, pages 141-148, editors : Maria Gavrilidou, George Carayannis, Stella Markantonatou, Stelios Piperidis, Gregory Stainhaouer, volume 1, Athens (Greece), 31 may-2 june.

[1999a] G. Illouz (LIMSI-Université Paris XI), B. Habert, S. Fleury, H. Folch, S. Heiden, P. Lafon (UMR 8503-ENS Fontenay/St-Cloud), "Maîtriser les déluges de données hétérogènes", in Actes de l'Atelier thématique TALN 1999 : Corpus et Traitement Automatique des Langues : pour une réflexion méthodologique, TALN'99, 12-17 juillet 1999, Cargèse.

Résumé

Le traitement automatique des langues fait de plus en plus appel à de volumineux corpus textuels pour l’acquisition des connaissances. L’obstacle actuel n’est plus la disponibilité de corpus, ni même leur taille, mais l’hétérogénéité des données qui sont rassemblées sous ce nom. Dans cet article, nous examinons l’hétérogénéité que manifestent les articles du Monde quand on les regroupe selon les rubriques de la rédaction du journal. Les conséquences d’une telle hétérogénéité pour l’étiquetage et le parsage sont soulignées. Partant de ce constat, nous définissons la notion de "profilage de corpus" par le biais d’outils permettant d’évaluer l’homogénéité d’un corpus (sur-emploi du vocabulaire, de catégories morpho-syntaxiques, ou de patrons) et l’utilisation qui peut en être faite.

[1999b] Thierry Barthel, Valérie Beaudouin, Céline Vié, Serge Fleury (R&D, France Telecom), "Les forums publics sur Intranoo en 1999", Rapport Technique, Issy Les Moulineaux.

[1998a] Fleury Serge, "Gaspar, un dispositif de TALN basé sur la Programmation à Prototypes", in Actes TALN'98, 10-11-12 juin 1998, Paris. (Version HTML)

Résumé

Nous présentons ici le dispositif GASPAR qui construit des représentations des mots sous la forme d'objets informatiques appelés des prototypes ; GASPAR associe à ces objets les comportements syntaxiques et sémantiques des mots en prenant appui sur des informations extraites à partir d'un corpus. GASPAR a pour première tâche de construire progressivement une représentation informatique des mots, sans présumer de leurs descriptions linguistiques ; il doit ensuite reclasser les mots représentés et mettre au jour, de manière inductive, les classes de mots du sous-langage étudié. Nous montrons comment la programmation à prototypes permet de représenter des mots dynamiquement par apprentissage et par affinements successifs. Elle permet ensuite d'amorcer un début de classement de ces mots sur la base de leurs contraintes syntaxico-sémantiques en construisant des hiérarchies locales de comportements partagés.

[1998b] Fleury Serge, "Représentations et classifications évolutives dans un dispositif de TALN", revue Information In Cognito. (Version HTML)

Résumé

Notre travail s'inscrit dans le cadre du Traitement Automatique du Langage Naturel (TALN). Notre démarche vise à la mise en œuvre d'un dispositif informatique cohérent avec les problèmes posés par les phénomènes linguistiques traités par ce dispositif (en particulier la construction du sens). Nous présentons ici le dispositif GASPAR qui construit des représentations des mots sous la forme d'objets informatiques appelés des prototypes ; GASPAR associe à ces objets les comportements syntaxiques et sémantiques des mots en prenant appui sur des informations extraites à partir d'un corpus. GASPAR a pour première tâche de construire progressivement une représentation informatique des mots, sans présumer de leurs descriptions linguistiques ; il doit ensuite reclasser les mots représentés et mettre au jour, de manière inductive, les classes de mots du sous-langage étudié. Nous montrons comment la programmation à prototypes permet de représenter des mots dynamiquement par apprentissage et par affinements successifs. Elle permet ensuite d'amorcer un début de classement de ces mots sur la base de leurs contraintes syntaxico-sémantiques en construisant des hiérarchies locales de comportements partagés. Ce travail met aussi en avant la nécessité de disposer d'un méta-niveau d'analyse dans un dispositif de TALN pour évaluer ou contrôler les opérations réalisées par les processus mis en place dans ce dispositif. Ce méta-niveau d'analyse doit surtout permettre à l'utilisateur du dispositif d'interpréter les résultats construits par les processus de représentation et de classement mis en place.

[1998c] Fleury Serge, "Représentations et classifications évolutives dans un dispositif de TALN avec la PàP", in Actes RECITAL'98, Septembre 1998, Le Mans. (Version HTML)

Résumé

Cet article présente la mise en œuvre d'un dispositif expérimental qui porte le nom de GASPAR [Fleury, 1997]. Ce dispositif vise à établir une représentation et un classement évolutifs d'unités lexicales représentées sous la forme d'objets informatiques appelés des prototypes. Les processus de représentation s'appuient sur des savoirs extraits d'un corpus. Nous montrons comment la programmation à prototypes permet de représenter des unités lexicales dynamiquement par apprentissage et par affinements successifs. Elle permet ensuite d'amorcer un début de classement des mots sur la base des contraintes syntaxiques attachées à ces mots en construisant des hiérarchies locales de comportements partagés.

[1998d] Fleury Serge, "Représentation évolutive de mots", in Revue d'Intelligence Artificielle.

Résumé

Cet article présente le dispositif expérimental GASPAR qui construit des représentations des mots sous la forme d'objets informatiques appelés des prototypes. GASPAR associe à ces objets les comportements syntaxiques et sémantiques des mots en prenant appui sur des informations extraites à partir d'un corpus. GASPAR a pour première tâche de construire progressivement une représentation informatique des mots, sans présumer de leurs descriptions linguistiques ; il doit ensuite reclasser les mots représentés et mettre au jour, de manière inductive, les classes de mots du sous-langage étudié. Cette phase de classement prend appui sur une recherche de clusters d'entités ayant un comportement plus homogène. Nous montrons comment la programmation à prototypes permet de représenter des mots dynamiquement par apprentissage et par affinements successifs. Elle permet ensuite d'amorcer un début de classement de ces mots sur la base de leurs contraintes syntaxico-sémantiques en construisant des hiérarchies locales de comportements partagés.

[1997] Fleury Serge, POLAS FRITAS, "Prototype Oriented Language HAS FREED US", La Programmation à Prototypes (PàP), un outil pour une linguistique expérimentale. Mise en oeuvre de représentations évolutives pour le TALN" , Doctorat de linguistique théorique, formelle et automatique , Université Paris 7.

[1993a] Habert Benoît et Fleury Serge, "Vers des analyseurs réflexifs", revue TAL, volume 34, numéro 1.

[1993b] Habert Benoît et Fleury Serge, "Suivi fin de l'analyse automatique du langage naturel basée sur l'héritage et la discrimination multiples", in RPO "Représentations par objets", (Le point sur sa recherche et ses applications), La Grande Motte 17-18 Juin 1993.

Conférences - Séminaires

[2016] CORLI : 14 – 15 novembre – Formation aux outils d’exploration de corpus. Ressources en ligne.

[2015]Serge Fleury, "Explorations textomométriques de la base ECRISCOL avec Le Trameur", jounée d'étude "Analyser informatiquement des grands corpus d’écrits scolaires: problèmes de transcription, d’annotation et de traitement", 18 mars 2015.

[2013a]Serge Fleury, "Approches textométriques des brouillons", séminaire projet ANR ECRITURES, 14 janvier 2013.

[2013b]Serge Fleury, Atelier "exploration corpus" (mkAlign), organisé par le Consortium Corpus écrits , 10 décembre 2013, Université Paris-Diderot.

[2012] Emilie Née, Erin MacMurray, Serge Fleuty, Textometric Explorations of Writing Processes: A Discursive and Genetic Approach to the Study of Drafts, JADT 2012, Liège (Belgique).

[2006] Maria Zimina et Serge Fleury (Syled-CLA²T), " Alignements et autres types de parallélismes dans les corpus", Traitements automatisés des discours politiques. Objets nouveaux, nouvelles méthodes. Séminaire CEDITEC, 06/01/2006.

[2006] Cédric Gendrot, Serge Fleury, Michel Jacobson, Présentation du Projet Innovant, "Propositions de Normalisation pour une Base de Corpus Multimedia à l'ED268", Assises de la Recherche, Université Sorbonne Nouvelle (Paris 3), 2 et 3 mars 2006 - Paris.

[2002] Serge Fleury (SYLED/CLA2T), Marie Pasquier (FT R&D ) "Analyses Textuelles sur le Web, Une introduction, Présentation du projet TyPWeb", séminaire SYLED/CLA2T", ILPGA, Université de la Sorbonne nouvelle Paris 3, 2 mai 2002.

[2002] Valérie Beaudouin (France Télécom), Marie Pasquier (France Télécom) et Serge Fleury (Syled-CLA2T), " S’écrire sur écran : pages personnelles, les modes de projection du moi ", "Internet comme terrain de re-connaissance pour les sciences du langage", le 2 juillet 2002, en Sorbonne, Salle Bourjac, Journée d’étude organisée par le SYLED-CEDISCOR, Université Paris 3.

[2001] Serge Fleury (Syled - Paris III) and Marie Pasquier (France Télécom, R&D) for the TyPWeb group, "Traits textuels, structurels et présentationnels pour typer les sites Web personnels et marchands" ("Textual, structural and presentational features for typing personal and commercial Web sites") , "From language to genres and to types", Workshop of the ATALA, Saturday 28 April 2001

[1999] Serge Fleury, "Gaspar, un dispositif pour le langage naturel reposant sur la Programmation à Prototypes", séminaire organisé dans le cadre des journées " Communication Homme-Machine ", LIMSI-CNRS, 19 janvier 1999, Orsay.

[1998] Serge Fleury, "Gaspar, un dispositif de TALN basé sur la Programmation à Prototypes", TALN 1998, 10-11-12 juin 1998, Paris.

Liens

Article (Version HTML)

Slides communication (Version HTML)

Slides démo (Version HTML)

[1996] Benoît Habert & Serge Fleury, "Analyseurs à mots via la programmation à prototypes et Apprentissage", séminaire organisé par Daniel Coulon (SCIGOGNE), Nancy, 16 Février 1996.

[1996] Serge Fleury, "GASPAR : un analyseur à mots via la programmation à prototypes" Journée "Héritage et Lexique", conférence organisée par la revue de l'ATALA, Association pour le Traitement Automatique des LAngues, Paris, 11 Mai 1996.

[1995] Benoît Habert & Serge Fleury, "Partages de sens, classifications statiques et dynamiques (la programmation à prototypes)", Journée "Traitement automatique de la polysémie nominale", conférence organisée par la revue de l'ATALA, Association pour le Traitement Automatique des LAngues, Paris, 10 Juin 1995.

Thèse

Ancrages, perspectives

Résumé

Introduction, Objectif

Guide de lecture

Polas Fritas Papers (Postscript et HTML)

Thèse version complète (PDF)

Slides soutenance (PDF)

Gaspar : Un dispositif pour le TALN avec Self

TALN98 : Présentation Gaspar pour TALN 98

SELF : Présentation de Self : un langage à prototypes