Serge Fleury

Maître de Conférences en linguistique informatique Sorbonne nouvelle, Paris 3
Membre du SYLEDED268

ILPGA / Sorbonne nouvelle
 

  • iTrameur : Des programmes en ligne (utilisables dans votre navigateur habituel) et reproduisant des calculs disponibles dans Le Trameur : http://www.tal.univ-paris3.fr/trameur/iTrameur/.

  • L'application iTrameur met en oeuvre des fonctionnalités disponibles dans Le Trameur ; elle regroupe par ailleurs des modules déjà disponibles en ligne :

    iTrameur "Specif-Partie"
    Les mots spécifiques d'une partie d'un corpus ; navigation via la carte des sections
    http://plurital.org/outils/specifpartie/

    iTrameur "CooCs-Bitext"
    Les cooccurrents d'un pôle sur un corpus aligné (avec retour en contexte); navigation via la carte des sections alignées
    http://plurital.org/outils/cooc-bitext/

    iTrameur "CooCs"
    Un graphe de cooccurrents sur un pôle donné (avec retour en contexte); navigation via la carte des sections
    http://plurital.org/outils/coocjs/

    iTrameur "CooCs-regexp"
    Un graphe de cooccurrents sur un ensemble de pôles définis via une regexp ; navigation via la carte des sections
    http://plurital.org/outils/coocgen/index-regexp.html

    iTrameur "Réseau CooCs"
    Un réseau de cooccurrences généralisées
    http://plurital.org/outils/coocgen/


  • Le Trameur : Le Trameur (http://www.tal.univ-paris3.fr/trameur/) est un programme d’analyse comportant de nombreuses fonctionnalités pour l’analyse automatique, statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation. Ce logiciel est à l’origine un outil de textométrie : il intègre les fonctionnalités classiques de ce type d’outils dans ce domaine. Il dispose aussi des fonctionnalités particulières qui permettent d’annoter dynamiquement des corpus ou d’explorer des ressources richement annotées (treebanks monolingues/multilingues ou des alignements).

  • L'objectif principal de la textométrie est de compter des éléments (des contenus textuels) dans des ensembles (des contenants regroupant des unités élémentaires d'un texte ou des zones de texte couvrant un certain nombre ou un certain type d'unités élémentaires). Les contenus se réalisent sous la forme de ressources textuelles (une séquence de caractères organisée en phrases, en paragraphes etc.). Les contenants existent sous la forme de système de masques ou de calques que l'on peut définir sur les contenus. Il s'agit de systèmes d'annotations que l'on peut définir sur tout ou partie des zones textuelles, ces annotations constituant en retour des accès sur les parties textuelles qu'elles définissent (le marquage des phrases ou des paragraphes étant un exemple d'annotation particulier pour décrire un certain niveau de la structure du texte). Le processus de comptage nécessite au préalable d'identifier les contenus et les contenants. Ce préalable consiste à expliciter une segmentation du texte conduisant à la mise au jour d'une trame sur laquelle des annotations pourront se greffer ultérieurement. A partir d'un texte segmenté, la numérotation des items découpés dans le texte de départ permet de constituer un système de coordonnées sur le texte dans lequel chaque item est repéré par son numéro d'ordre. Nous appelons ce système de coordonnées sur la séquence textuelle : la Trame textométrique. Ce même système de coordonnées permet de définir et de localiser, au sein du corpus, des zones textuelles (zones formées par une suite d'items consécutifs, entre la position x1 la position x2, réunion d'un certain nombre de zones de ce type, etc.). La définition d'une trame textométrique sur un corpus de textes permet de décrire les systèmes de zones qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, phrases, sections, chapitres etc.). On peut rassembler les descriptions relatives aux systèmes de contenants dans une structure de données particulière le Cadre textométrique. Nous appelons trameur l'outil informatique qui permet de construire une ressource textométrique trame/cadre, à partir d'une ensemble de textes rassemblés en corpus, selon les principes définis plus haut. La partie trame de la ressource textuelle produite par le trameur est constituée par la suite des items isolés lors de l'opération de segmentation. La partie cadre rassemble les données relatives aux différents découpages réalisés sur le corpus ainsi que les annotations déjà projetées sur les contenants ou les contenus constitués lors des étapes précédentes. La transmission d'une ressource textuelle constituée sous la forme trame/cadre constitue une solution suffisante pour servir de base à toute exploration textométrique ultérieure.
    ([Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle. (DOC))

    Lecture complémentaire : [Fleury, 2013], Serge Fleury. Le Trameur. Propositions de description et d’implémentation des objets textométriques, (PDF), (texte en cours).

    Le document précédent met au jour une description des objets textométriques et les méthodes mises en œuvre dans le Trameur pour travailler sur et avec ces objets dans une perspective textométrique. On y détaille aussi les opérations permises sur une base textométrique : format des données textuelles, modification dynamique de la Trame, correction ou ajout d'annotation etc.

    Lectures

    Keyser Söze-Duval. Pour une textométrie opérationnelle. (DOC)

    Fleury Serge, Approches textométriques des brouillons, (PDF), séminaire projet ANR ECRITURES, 14 janvier 2013.

    Fleury Serge, Le Trameur. Propositions de description et d’implémentation des objets textométriques, (PDF), (texte en cours).

    Lafon Pierre. Dépouillements et statistiques en lexicométrie. Genève-Paris, Slatkine-Champion.

    Lamalle C., Salem A., " Types généralisés et topographie textuelle dans l'analyse quantitative des corpus textuels "(PDF), in Actes des 6èmes Journées d'analyse statistique des données textuelles, St Malo, Inria, 2002.

    Lebart L. et Salem A. (1994). Statistique textuelle (en ligne). Paris, Dunod.

    André Salem, Cédric Lamalle, Serge Fleury (EA2290 SYLED/CLA2T). "Vers une description formelle des traitements textométriques" (PDF), in Actes JADT 2006, Journées Internationales d'Analyse Statistiques des Données Textuelles, Besançon 2006.


  • mkAlign 2.00 : Le programme mkAlign (offline) permet de construire ou de corriger un alignement de 2 textes puis de produire une version XML du bi-texte aligné. Version exécutable pour Windows. Doc HTML, Doc PDF
    URL projet : http://www.tal.univ-paris3.fr/mkAlign/.

  • La notion de corpus parallèle, qui émerge actuellement dans les travaux de différents chercheurs comme : corpus comportant plusieurs volets qui correspondent chacun à une version d’un même texte dans deux ou plusieurs langues différentes, renvoie à des situations connues de coexistence de textes présentant des liens forts dans leur structuration. Le traitement de corpus parallèles suppose une phase préalable d’alignement , c’est-à-dire de mise en correspondance dans chacun des volets de différents types d’unités textuelles [Zimina, 2004]. Aligner des corpus de textes originaux et de leurs traductions c’est mettre en relation des unités textuelles qui se correspondent. On peut établir des correspondances entre des unités de différents niveaux : mots, syntagmes, phrases, paragraphes, sections, etc. Le programme mkAlign permet de construire, corriger et visualiser un alignement de deux textes via un éditeur à double entrée. Il permet d’afficher simultanément les textes source et cible pour y rajouter ou corriger des segments équivalents. Ce programme n’est pas (seulement) un aligneur automatique. Il est conçu pour aider l’utilisateur dans la création, l’alignement, la correction et la validation de textes traduits. L’utilisateur garde la maîtrise sur l’ensemble de ces processus, depuis la mise en correspondance initiale des segments équivalents jusqu’à l’export final du bi-texte produit. Il appartient à l’utilisateur de construire l’alignement et de définir son degré de précision (résolution). Cette résolution peut varier pour mettre en évidence les correspondances entre les segments textuels des différents niveaux. La notion de sauvegarde de session de travail (création de fichiers d’export/import de bi-textes au format xml et html) permet de commencer le travail sur un corpus à deux volets textuels, l’exporter au format désiré, puis le réimporter plus tard pour y apporter des modifications. La visualisation de l’alignement dans une représentation cartographique (bi-text map) offre plusieurs possibilités de gestion de corpus qui partagent des similitudes au plan traductionnel.


  • makeMetadata 2.00 : Le programme makeMetadata permet de générer ou de corriger des métadonnées. Version exécutable pour Windows. HTML, Doc PDF
    URL projet : http://pi-ed268.univ-paris3.fr.
  • MkCorpus : Outil de Préparation de Corpus pour Analyse
  • GASPAR : Programmation à Prototypes (avec Self) et TALN