Serge Fleury

Maître de Conférences en linguistique informatique Sorbonne nouvelle, Paris 3
Membre du CLESTHIAED268

ILPGA / Sorbonne nouvelle
 

Projets en cours :

  • iTrameur : Des programmes en ligne (utilisables dans votre navigateur habituel) et reproduisant des calculs disponibles dans Le Trameur : http://www.tal.univ-paris3.fr/trameur/#iTrameur.
  • Projet ANR ProText : Le projet Pro-TEXT ambitionne d’élucider les dynamiques du processus de textualisation, grâce à la modélisation des relations entre les indices temporels des processus cognitifs et la nature des formes linguistiques produites lors de l’écriture enregistrée. Cette recherche interdisciplinaire innovante vise à rendre compte des régularités de production des jets textuels (séquences produites entre deux pauses: [p] le sens de [p]) en français, à travers une approche inductive articulant des données linguistiques et comportementales multi-paramétiques, et des méthodes d’apprentissage automatique. Cette approche novatrice donnera lieu à une analyse linguistique complète des jets textuels en mettant en relation les régularités incrémentales du processus de textualisation et les contraintes cognitives et contextuelles de la performance langagière. Le projet Pro-TEXT va en outre développer des méthodes et des outils modélisant ces régularités et mettant en évidence des schémas de textualisation.
  • Projet ANR E-CALM : À partir d’un corpus d’écrits d’élèves et d’étudiants que le projet rendra accessible en open access, il s’agit de caractériser certaines compétences scripturales (orthographe et cohérence textuelle) et de mieux comprendre la manière dont les enseignants, par leurs interventions sur les copies, orientent l’écriture, afin d’étayer l’accompagnement de la réécriture de l’école à l’université.
  • Projet ANR NaijaSynCor : NaijaSynCor (A Corpus-based Macro-Syntactic Study of Naija, aka Nigerian Pidgin) takes an exhaustive and in-depth look at the structure of Naija (Nigerian Pidgin) in Nigeria today. Spoken by educated Nigerians, it has been proved to develop in Lagos as a discrete language, separate from Nigerian English. This study proposes to assess whether this holds true for the rest of Nigeria where Naija is spoken by over 75 million speakers. It examines diachronic, diatopic, diaphasic, diastratic, and genre variation.
  • Projet ECRISCOL : Le projet de recherche ECRISCOL est centré sur l’analyse des écrits produits en situation scolaire. Il s’agit de faire le rapport entre des traits caractéristiques de ces écrits et des situations d’apprentissage et d’enseignement suscitant leur production, de manière à faire apparaître des dispositifs didactiques favorisant certains types d'écrits et certaines stratégies ou procédures d'écriture.
  • CFPP2000 : S. Branca-Rosoff, S. Fleury, F. Lefeuvre, M. Pires
    Discours sur la ville. Corpus de Français Parlé Parisien des années 2000 (CFPP2000)
    http://cfpp2000.univ-paris3.fr/
  • Le Trameur : Le Trameur (http://www.tal.univ-paris3.fr/trameur/) est un programme d’analyse comportant de nombreuses fonctionnalités pour l’analyse automatique, statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation. Ce logiciel est à l’origine un outil de textométrie : il intègre les fonctionnalités classiques de ce type d’outils dans ce domaine. Il dispose aussi des fonctionnalités particulières qui permettent d’annoter dynamiquement des corpus ou d’explorer des ressources richement annotées (treebanks monolingues/multilingues ou des alignements).
  • Développement de Lexico3
  • "Corpus Le Monde Chronologique" : Analyse de Corpus de Veille avec Lexico3
  • mkAlign : Le programme mkAlign permet de construire et visualiser l'alignement de deux textes en modifiant au besoin la correspondance entre leurs segments respectifs. Ce programme n'est pas uniquement un aligneur automatique. Il appartient à l'utilisateur de construire l'alignement et de définir son degré de précision (résolution). Cette résolution peut varier pour mettre en évidence les correspondances entre les segments textuels de différents niveaux.
  • Corpus alignés au format TMX
  • Discours d'investiture de B. Obama : version anglaise et 4 traductions en français

    Discours de B. Obama le 04/06/2009 (Le Caire) : 3 langues (anglais, français, espagnol).

    Discours de B. Obama le 04/06/2009 (Le Caire) : 2 langues (français, arabe).

    Convention de sauvegarde des droits de l'homme et des libertés fondamentales : 3 langues.

    Corpus DH v1.1 : 2 langues (source : Corpus Droits de l'Homme, LDI, UMR 7187).

    La Divine Comédie. Partie 1 : l'Enfer : 5 langues (source : The Project Gutenberg).

    Corpus Alice au pays des mesures :

    Sources : anglais, japonais, français (traduction 1), français (traduction 2), italien, chinois, polonais, russe, allemand

    Alignement Alice au pays des merveilles : 8 langues (anglais, japonais, français (2 traductions), italien, chinois, polonais, russe, allemand) ; lemmatisation via treetagger (EN, FR, IT), segmentation et lemmatisation via chasen (JP), segmentation via ICTCLAS (ZH).

    Alignement Alice au pays des merveilles : idem que le précédent avec affichage sélectif des volets visés.

    Chacun des volets de l'alignement est accessible ici (extraction via mkAlign à partir du TMX précédent) :

    Kit d'alignement Alice : fichier au format RTF contenant dans une colonne la version de référence en anglais, et une colonne à compléter en y intégrant le nouveau volet à aligner.

    Ulysse : version anglaise et traduction en français (Source : Ulysse, par jour)

    Corpus Le Vieil Homme Aligné :

    Le vieil homme et la mer (extraits) : version anglaise et 3 traductions en français (Source : embruns.net)

    Le vieil homme et la mer (extraits) : 2 volets (volet français) traduction de François Bon (2012), (volet français) traduction de slate.fr (2012)

    Le vieil homme et la mer (extraits) : 4 volets : (volet anglais) Hemingway (version originale), (volet français) traduction de J. Dutourd (1952), (volet français) traduction de François Bon (2012), (volet français) traduction de slate.fr (2012)

    Le vieil homme et la mer. 4 volets : (volet anglais) Hemingway (version originale), (volet français) traduction de J. Dutourd (1952), (volet français) traduction de François Bon (2012), (volet espagnol) Colección "Dante Quincenal" (1989)


    "le vieux" versus "le vieil" dans les 2 traductions en français (via Le Trameur)

    Cooccurrents "vieux/vieil" dans les 2 traductions en français (via Le Trameur)

Projets réalisés :