Serge Fleury

Maître de Conférences en linguistique informatique Sorbonne nouvelle, Paris 3
Membre du CLESTHIAED268

ILPGA / Sorbonne nouvelle
 
Serge Fleury
Equipe CLESTHIA
ILPGA, 19 rue des Bernardins 75005 Paris

Contacts WWW
Université Paris 3 Sorbonne Nouvelle / ILPGA
CLESTHIA
19 rue des Bernardins
75005 Paris, France
Tél. : (+33) 1.44.32.05.75
Fax : (+33) 1.44.32.05.73
Tél. : (+33) 6 85 46 73 47
E-Mail : serge.fleury@sorbonne-nouvelle.fr
Web: http://www.tal.univ-paris3.fr/sfleury/
Weblog: http://sfleury.typepad.fr
Thèmes de recherche

Traitement Automatique du Langage
Analyse automatique
Langages à prototypes
Documents Structurés
Hypertextes
Analyse du Web
Web Mining
Collecte et analyse de corpus sur le Web
Traitements quantitatifs

Situation actuelle
Depuis 1999 Maître de Conférences, Université de la Sorbonne nouvelle Paris 3
Formation
1992-97 Doctorat de linguistique théorique, formelle et automatique , Paris 7. POLAS FRITAS, "Prototype Oriented Language HAS FREED US", La Programmation à Prototypes (PàP), un outil pour une linguistique expérimentale. Mise en oeuvre de représentations évolutives pour le TALN.

Cette thèse de doctorat a été soutenue le 04 octobre 1997 à l´université Paris 7 - Denis Diderot devant la commission d´examen composée de : Pierre Cadiot (Université Paris VIII, Rapporteur), Bernard Victorri (ELSAP, CNRS, Rapporteur), François-Xavier Testard-Vaillant (ENS de Fontenay St Cloud, Directeur), Benoît Habert (ENS de Fontenay St Cloud), Violaine Prince (Université Paris VIII), Marcel Cori (Université Paris VII).

Mots-clés : linguistique basée sur corpus, langage à prototypes, apprentissage et classement automatique, contrôle, méta-représentation, réflexivité.

Cette thèse vise à la mise au point d'outils de modélisation adaptés à des problèmes de représentation des connaissances dans un dispositif de TRAITEMENT AUTOMATIQUE DU LANGAGE NATUREL. L'hypothèse suivie dans ce travail est que ces connaissances ne sont pratiquement jamais complètes et intangibles. Au contraire, il faut gérer leur extension et leur modification. L'enrichissement des connaissances repose dans notre travail sur l'utilisation de corpus dans des domaines de spécialité. Notre démarche propose une nouvelle approche, fondée sur la programmation à prototypes (désormais notée PàP), qui permet de définir de nouveaux objets en les faisant dériver d'objets déjà existants (sans utiliser la notion de classe). La PàP conduit à penser différemment pour construire une représentation informatique d'un certain domaine de connaissances. Il ne s'agit pas de partir d'une somme de connaissances figées et connues par avance mais de construire progressivement les entités informatiques suivant les connaissances dont on dispose sur le domaine visé. Si les informations à représenter ne sont pas connues de manière définitive, il est possible de commencer le processus de représentation en utilisant les informations déjà recensées puis d'affiner dynamiquement les objets construits dès que de nouvelles informations sont disponibles. Si de nouvelles connaissances sont mises au jour, on peut affiner le processus de représentation déjà amorcé en tenant compte de ces nouvelles informations sans avoir à reconstruire entièrement de nouvelles structures. Self est le langage utilisé pour l'implémentation de notre système appelé GASPAR. Self est un langage à prototypes qui permet l'héritage multiple et dynamique. Les propriétés fondamentales du langage Self sont la concrétude, l'uniformité et la flexibilité. La concrétude se manifeste clairement par le fait qu'un utilisateur manipule directement les objets et peut en créer de nouveaux à partir d'objets existants, en les dupliquant et en les ajustant. L'uniformité se traduit par le fait qu'en Self tout est objet et que tous les objets dialoguent entre eux par envoi de messages. La flexibilité découle directement des aspects de concrétude et d'uniformité de Self. Le dispositif GASPAR vise à automatiser les traitements de représentation des mots et de leur classement, en utilisant des informations extraites à partir de corpus, et à souligner les limites de cette induction de savoirs. Notre travail de représentation et de classement s'appuie sur une recherche initiale au niveau des mots des régularités et des redondances d'utilisation dans des corpus donnés. Ce travail s'inscrit dans une approche expérimentale qui ne présume pas complètement des choses à représenter. On peut en effet considérer que les comportements des mots ne sont pas tous prédéfinis mais que ceux-ci " émergent " dans le contexte dans lequel ces mots " agissent ". Il n'est donc pas raisonnable de les considérer comme acquis par définition. Il s'agit au contraire de les mettre en lumière ainsi que les corrélations multiples qui existent entre les mots dans un flot continu de discours. Notre démarche consiste en quelque sorte à " faire émerger " les comportements des mots puis à les représenter ou à affiner les représentations existantes et enfin à classer les structures de représentation construites. Un premier objectif de GASPAR est de construire des représentations informatiques évolutives de mots à partir d'informations extraites sur corpus. Le second objectif est de classer les mots représentés et de tendre vers la détermination de classes sémantiques, de manière inductive. Les classes de mots produites sont ensuite utilisées pour affiner le travail de représentation des mots. Notre démarche cherche à réaliser une adéquation entre les occurrences linguistiques réalisées et les prédictions de représentations construites. Il ne s'agit pas de produire d'emblée un résultat définitif mais plutôt de tendre vers cette adéquation, par touches successives, en affinant les prédictions construites. Si GASPAR peut automatiser la représentation et le classement des mots sur la base de contraintes syntaxico-sémantiques qui leurs sont associés, les résultats restent à qualifier, à nommer. Dans notre dispositif, c'est l'observateur conscient qui donne le sens. C'est en examinant à la main les rapprochements constatés et les classes de mots construites que l'on pourra leur donner un nom c'est-à-dire nommer les choses. Ces étapes d´ajustements et d´interprétation se réalisent en utilisant le potentiel dynamique de Self (ajustement dynamique des objets). Ce travail d'interprétation est d'ailleurs un passage obligé de toutes les approches en classification automatique.

L'intégralité des textes de ma thèse est disponible sur ce site : Polas Fritas.

Ancrages, Guide de lecture, Résumé

Dans le cadre de mon doctorat, deux communications scientifiques ont été publiées. La première (cf. infra) a été faite pour la conférence " Représentation par Objet " (Le point sur sa recherche et ses applications) organisée par EC2 et IA2 et qui s'est tenue à La Grande Motte (34) les 17 et 18 Juin 1993. La seconde communication (cf. infra) est parue dans le numéro 34 (Décembre 93) de la revue TA Informations (revue du traitement automatique des langues, publiée avec le concours du Centre National de la Recherche Scientifique) et consacrée à l' " Analyse Syntaxique " dans le traitement automatique du langage naturel. Outre ces deux communications, ce travail m'a conduit à participer à trois conférences (cf. infra).

1991-92 Dea de linguistique théorique, formelle et automatique , Paris 7

Titre : " GASPAR : a General Analysis about Syntactic Parsing and Reflexion "
Ce travail de recherche se situe dans le cadre du traitement automatique du langage naturel avec comme domaine d'application propre l'analyse syntaxique et ses modèles de représentation. Il s'agissait plus particulièrement de travailler sur l'analyseur syntaxique OLMES développé à l'Ecole Normale Supérieure de Fontenay St-Cloud et de développer une approche réflexive pour cet analyseur. GASPAR constitue une approche pour l'étude des problèmes de représentation des connaissances dans un analyseur et pour le développement de processus capables de renseigner l'utilisateur sur l'activité de l'analyseur au cours d'une analyse. Une partie de ce travail a permis de proposer une représentation possible des connaissances syntaxiques reposant sur les cadres offerts par la programmation à objets. Ce travail a aussi permis de plus de mettre en valeur le problème crucial mais non trivial qui est celui de construire un méta-langage cohérent pour exploiter les ressources mises en jeu lors d'une analyse et qui réponde aux besoins de l'utilisateur.
Ce travail a été effectué sous la direction de Benoît Habert, Maître de Conférences à l'Ecole Normale Supérieure de Fontenay St Cloud dans l'équipe ELI, Equipe Linguistique Informatique : Equipe d'Accueil de la Direction de la Recherche et des Etudes Doctorales (Ministère de l'Enseignement Supérieur). Il a donné lieu à un mémoire et à un article publié (Publications).

1990-91 Maîtrise MASS (Mathématiques appliquées et sciences sociales) option linguistique , Paris 7
1989-90 Licence MASS (Mathématiques appliquées et sciences sociales) option linguistique , Paris 7
1987-89 Deug MASS (Mathématiques appliquées et sciences sociales) option linguistique , Paris X
1982-85 Mathématiques supérieures et spéciales Cnec Vanves
1983-87 Arts appliqués duperre , Paris
Activités professionnelles
1998-99

Post-Doctorat en linguistique-informatique au CNET - France TELECOM. J'ai occupé durant cette période un poste d'ingénieur de recherche et de développement dans le cadre d'un Post-Doctorat en linguistique-informatique à Issy-Les-Moulineaux dans le laboratoire DIH/UCE (Usages, créativité, ergonomie). Deux axes de recherche sont développés dans le cadre de ce Post_Doctorat :
(1) Travail sur un corpus d'échanges de courriers électroniques de réclamations/résiliations en cherchant à extraire des contenus sémantiques et à analyser l'état des relations client-abonné. (2) Travail sur les discours des internautes (présentation de soi dans les pages personnelles). Constitution du corpus qui récupèrent les contenus d'arborescence. Corpus de texte de taille importante, dont il faut structurer et analyser le contenu. Mise en place d'un dispositif pour identifier des types de pages et classer les sites analysés en fonction de cette typologie.

1998-99 Chargé de cours à Paris 3, ILPGA. Enseignement en TAL
1990-1998 SEMA GROUP CAPITAL MARKET.

J'ai mené de front à mes études supérieures une activité professionnelle à temps complet dans une société de services informatiques. Ce statut d'étudiant-salarié m´a permis d´approfondir mes connaissances sur les différents systèmes informatiques disponibles sur le marché. Il m´a aussi permis de mener une activité d´encadrement et de formation de personnes travaillant à mes côtés.
Maintenance de logiciels gérant des transactions boursières de comptes client en Service Bureau, Facilities Management et Téléintervention.

1989-90 Formateur en mathématiques GRETA Tertiaire Sud 93
1982-90 Surveillant d'externat
1981-82 Maître auxiliaire en mathématiques
Publications, séminaires
(textes en ligne) sommaire
Activités de Recherche, projets
Projet ANR Pro-TEXT 2019-2022

Projet ANR Pro-Text

Le projet Pro-TEXT ambitionne d’élucider les dynamiques du processus de textualisation, grâce à la modélisation des relations entre les indices temporels des processus cognitifs et la nature des formes linguistiques produites lors de l’écriture enregistrée. Cette recherche interdisciplinaire innovante vise à rendre compte des régularités de production des jets textuels (séquences produites entre deux pauses: [p] le sens de [p]) en français, à travers une approche inductive articulant des données linguistiques et comportementales multi-paramétiques, et des méthodes d’apprentissage automatique. Cette approche novatrice donnera lieu à une analyse linguistique complète des jets textuels en mettant en relation les régularités incrémentales du processus de textualisation et les contraintes cognitives et contextuelles de la performance langagière. Le projet Pro-TEXT va en outre développer des méthodes et des outils modélisant ces régularités et mettant en évidence des schémas de textualisation..

Projet ANR E-CALM 2018-2021

Projet ANR E-CALM

À partir d’un corpus d’écrits d’élèves et d’étudiants que le projet rendra accessible en open access, il s’agit de caractériser certaines compétences scripturales (orthographe et cohérence textuelle) et de mieux comprendre la manière dont les enseignants, par leurs interventions sur les copies, orientent l’écriture, afin d’étayer l’accompagnement de la réécriture de l’école à l’université.

Projet ANR NaijaSynCor 2017-2020

Projet ANR NaijaSynCor

NaijaSynCor (A Corpus-based Macro-Syntactic Study of Naija, aka Nigerian Pidgin) takes an exhaustive and in-depth look at the structure of Naija (Nigerian Pidgin) in Nigeria today. Spoken by educated Nigerians, it has been proved to develop in Lagos as a discrete language, separate from Nigerian English. This study proposes to assess whether this holds true for the rest of Nigeria where Naija is spoken by over 75 million speakers. It examines diachronic, diatopic, diaphasic, diastratic, and genre variation.

Projet ECRISCOL

Projet ECRISCOL

Le projet de recherche ECRISCOL est centré sur l’analyse des écrits produits en situation scolaire. Il s’agit de faire le rapport entre des traits caractéristiques de ces écrits et des situations d’apprentissage et d’enseignement suscitant leur production, de manière à faire apparaître des dispositifs didactiques favorisant certains types d'écrits et certaines stratégies ou procédures d'écriture.

Projet ANR ECRITURES, 2011-2013

ECRITURES

Brouillons d'écrits sociaux : approche génétique, discursive et textométrique de l'écriture professionnelle.

CFPP2000

Corpus de Français Parlé Parisien des années 2000

S. Branca-Rosoff, S. Fleury, F. Lefeuvre, M. Pires
Discours sur la ville. Corpus de Français Parlé Parisien des années 2000 (CFPP2000)
http://cfpp2000.univ-paris3.fr/

Projet Innovant ED268

Projet Innovant ED268 2008-2010

Approche Discursive et Génétique Des Brouillons : les écrits des travailleurs sociaux dans le champ de l’enfance en danger.

Nous nous proposons d’observer les stratégies d’écriture des travailleurs sociaux (enquête-observation, analyse de brouillons et suivi par des logiciels-"espions") et de valider des hypothèses quant aux rapports entre contraintes linguistico-cognitives et cadres socio-institutionnels. Pour ce faire, nous mettrons en série et contrasterons, d’une part, les points qui apparaissent comme des difficultés d’écriture et, d’autre part, les modifications imposées aux textes par les chefs de service.

Projet ANR 2007-2009

Programme "Corpus et outils de la recherche en sciences humaines et sociales"

Textométrie : Fédération des recherches et développements en textométrie autour de la création d’une plateforme logicielle ouverte (Coordinateur : Serge Heiden)..

Le projet Textométrie vise à développer une plateforme open-source de textométrie avec une équipe pluridisciplinaire très complète ayant fait ses preuves par la réalisation de logiciels innovants et très diffusés.

Source : Qu'est-ce que la textométrie ?

Cette discipline s’est essentiellement développée en France à partir des années 1970, dans la lignée des recherches pionnières de Pierre Guiraud (1954, 1960) et de Charles Muller (1968, 1977) en statistique lexicale (évaluation de la richesse du vocabulaire d’un texte, vocabulaire caractéristique d’un texte). Elle reprend et poursuit également les méthodes d’analyse des données (analyses factorielles, classifications) mises au point par Jean-Paul Benzécri (1973) et déjà appliquées par lui aux données linguistiques : de telles techniques permettent de générer des cartographies synthétiques et visuelles des mots et des textes tels qu’ils s’apparentent ou s’opposent au sein d’un corpus. La textométrie développe en outre de nouveaux modèles statistiques pour rendre compte de caractéristiques significatives des données textuelles : attirances contextuelles des mots (phraséologie, champs thématiques,...), linéarité et organisation interne du texte (par exemple mots bien répartis au fil du texte ou au contraire apparaissant en "rafales"), contrastes intertextuels (mesure statistique fiable du sur-emploi ou du sous-emploi d’un mot dans un texte, et repérage des mots et des phrases caractéristiques d’un texte), indicateurs d’évolution lexicale (période caractéristique d’un terme, détection des ruptures significatives). Les résultats des calculs sont des réorganisations synthétiques, sélectives et suggestives, des textes soumis à l’analyse : listes ordonnées, visualisation cartographiques, regroupements, mises en valeur au fil du texte. L’interprétation des calculs se fonde sur des indicateurs chiffrés mais aussi sur l’examen systématique des contextes, maintenant facilité par des liens hypertextes pertinents. Les chercheurs en textométrie ont bien sûr également approfondi le débat sur la modélisation des données textuelles : que compte-t-on au juste ? Dans quelle mesure est-il opportun de soumettre préalablement le texte à une analyse linguistique, pour mieux délimiter et reconnaître les mots ?
La textométrie met donc un large éventail de calculs linguistiquement significatifs et mathématiquement fondés au service de l’analyse méthodique et renouvelée de collections de textes : associations syntagmatiques et paradigmatiques, contrastes et caractérisations, évolutions. Outillant une démarche équilibrée alternant calcul de vues synthétiques globales et consultation ciblée des contextes d’emploi, elle révèle les nouvelles possibilités de lecture offertes par les corpus numériques.

Le métier Textométrique aka Le Trameur

Projet le Trameur / iTrameur :

Le Trameur est un programme d’analyse comportant de nombreuses fonctionnalités pour l’analyse automatique, statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation. Ce logiciel est à l’origine un outil de textométrie : il intègre les fonctionnalités classiques de ce type d’outils dans ce domaine. Il dispose aussi des fonctionnalités particulières qui permettent d’annoter dynamiquement des corpus ou d’explorer des ressources richement annotées (treebanks monolingues/multilingues ou des alignements). iTrameur est une application en ligne mettant en oeuvre des fonctionnalités disponibles dans Le Trameur.

Corpus Chronologique
"Le Monde"

Analyse de corpus de Veille avec Lexico 3

Chaque version quotidienne du journal Le Monde est régulièrement récupérée sur le site web du journal : dans sa version HTML et dans sa version PDF. La version HTML du journal est traitée pour produire différents états :

  • un état quotidien des contenus textuels du journal sous la forme d'une version normalisée au format XML et une version compatible avec le logiciel Lexico3
  • des états statistiques quotidiens

Les états quotidiens des contenus textuels sont ensuite nettoyés et concaténés pour produire des corpus chronologiques couvrant l'ensemble des dates de récupération. Le démarrage de ce processus a commencé le 12 avril 2003 i.e. on dispose à ce jour d'un corpus regroupant l'ensemble des versions électroniques de chaque journée depuis cette date.

Fils de Presse

Projet "Fils de Presse"

Lectures et traitements lexicométriques sur des fils RSS de journaux en ligne (Le Monde, Libération, Le Figaro).

Corpus Alignés

Projet mkAlign

Le programme mkAlign permet de construire, corriger et visualiser un alignement de deux textes via un éditeur à double entrée. Il permet d’afficher simultanément les textes source et cible pour y rajouter ou corriger des segments équivalents. Ce programme n’est pas (seulement) un aligneur automatique. Il est conçu pour aider l’utilisateur dans la création, l’alignement, la correction et la validation de textes traduits. L’utilisateur garde la maîtrise sur l’ensemble de ces processus, depuis la mise en correspondance initiale des segments équivalents jusqu’à l’export final du bi-texte produit. Il appartient à l’utilisateur de construire l’alignement et de définir son degré de précision (résolution). Cette résolution peut varier pour mettre en évidence les correspondances entre les segments textuels des différents niveaux. La notion de sauvegarde de session de travail (création de fichiers d’export/import de bi-textes au format xml et html) permet de commencer le travail sur un corpus à deux volets textuels, l’exporter au format désiré, puis le réimporter plus tard pour y apporter des modifications. La visualisation de l’alignement dans une représentation cartographique (bi-text map) offre plusieurs possibilités de gestion de corpus qui partagent des similitudes au plan traductionnel.

Projet Innovant ED268

Projet Innovant ED268 2004-2006

L'objectif de ce projet est de proposer une réflexion et une démarche pour constituer des ressources linguistiques normalisées (données orales, écrites et vidéo) dans un cadre pluridisciplinaire. Sont en effet apparues ces dernières années de nombreuses tentatives internationales visant à normaliser les ressources électroniques (pour les sciences humaines en particulier (cf TEI, CES) ou plus généralement pour la diffusion des informations sur le web (projet web sémantique, W3C ). Le projet vise à s'inscrire dans cette perspective de constitution de ressources électroniques normalisées dans le cadre des corpus de langue. Il s'attache à définir des perspectives de structuration de corpus en intégrant des marqueurs de strate dans les textes encodés pour donner à voir les textes sous ces différents facettes en parcourant en profondeur les strates définies.

SensNet

Page SensNet

L'objectif final de ce projet est de mettre en place un système de catégorisation sémantique des usages et des parcours du Web. En nous appuyant sur les données d'usages des internautes du panel NetValue, nous proposerons un système de catégorisation qui prend en compte les particularités du Web : 1) Celui-ci n'est pas seulement un espace de consultation d'information ; il autorise un nombre élevé de types d’activités (s’informer, rechercher, communiquer, acheter…); 2)Le Web est un hypermedia, cela implique que les aspects formels (réseau de liens, éléments multimedia, zones interactives...) soient intégrés dans la catégorisation ; 3) La page vue est un moment dans le parcours de l'internaute mais aussi un des éléments constitutifs d'un site. Il faut prendre en compte la conception des sites dans l’analyse des usages du Web. Cette démarche d'analyse appliquée à des usages spécifiques (utilisation des portails, des sites marchands, parcours de recherche d'information...) permettra de mieux catégoriser les sites, les parcours et de définir des profils d'internautes en fonction de leurs usages.

TYPWEB

Page Typweb

Nous appelons profilage de sites WEB, l'utilisation d'outils de calibrage donnant des indications sur les contenus et les structures de ces sites. Ces outils doivent également permettre de positionner un nouveau site par rapport aux regroupements obtenus sur une base de sites déjà analysés. Ils doivent aussi permettre de mesurer les évolutions de ces sites.
Le présent projet qui associe des chercheurs du CNET/DIH/UCE et de l'équipe TYPTEXT (LIMSI-PARIS X-PARIS3) propose de fournir un cadre méthodologique et pratique de profilage de sites WEB et un typologie fine de ces sites.

TYPTEX

Page Typtex

Typer les textes pour disposer de corpus représentatifs, H. Folch, S. Fleury, B. Habert, S. Heiden, G. Illouz, P. Lafon, LIMSI & UMR 8503 -ENS Fontenay/St Cloud.
Le traitement automatique du langage fait de plus en plus appel à de volumineux corpus textuels pour l'acquisition des connaissances qui lui sont nécessaires : cadres de sous­catégorisation des verbes, collocations, enchaînement de catégories... L'obstacle actuel n'est plus la disponibilité de corpus, mais l'hétérogénéité des données qui sont rassemblées sous ce nom. Les données du journal Le Monde distribuées par ELRA rassemblent ainsi des textes de longueur très différentes (des quelques dizaines de mots des " brèves " aux milliers de mots des articles de dossiers), relevant de domaines distincts – les " rubriques " (économie, politique, international, sport), et de " genres " multiples : biographie, chronique, chronologie, encadré, correspondance, entretien, nécrologie, opinion, portrait, rectificatif, revue de presse, tableau... Or la qualité des connaissances acquises dépend directement de la maîtrise des caractéristiques du corpus utilisé.
Dans la lignée des indications de EAGLES (Sinclair 1996), sur la typologie des textes, une équipe constituée de chercheurs du LIMSI et de l'UMR 8503 propose de fournir une typologie plus fine des articles du journal Le Monde qui permette une vraie maîtrise des variations internes de cet ensemble de textes et des extractions raisonnées en fonction de la tâche d'ingéniérie linguistique visée.

LEXICO3 Site Lexico
MKCORPUS Site MkCorpus
LEXICOMETRICA Site Lexicometrica
Activités d'Enseignement
depuis 1999 Secteur TAL ILPGA
Réalisations
Outils/Ressources en ligne sur le site Portail TAL/P3
Le Trameur Page "Le métier lexicométrique" (doc+téléchargement)
makeMetadata sur le Site PIED268
mkAlign Page mkAlign (doc+téléchargement)
MKCORPUS MkCorpus, outil de manipulation et de préparation de corpus
GASPAR gaspar un dispositif pour le TALN avec SELF
Peintures
Galerie virtuelle, expositions

Parcours coloré : Peintures, attitudes pour sentiments primaires.

->> Galerie(s) virtuelle(s)