[logo-trameur.jpg] [logocla2t.gif] Le Métier Textométrique Dans une perspective lexicométrique / textométrique, représentation du texte sous la forme d'une Trame et d'un Cadre i.e le métier Textométrique . [ligne.gif] Sommaire * Préambule * Trame et Cadre textométriques * Le Trameur * Documentation * Exemples de Bases Textométriques * Rapports d'analyse construits * Nuages d'annotations sur la Trame * Dernières mises à jour * Téléchargement * Version console * Version Tk * Copies d'écran Liens Lectures [ligne.gif] Préambule L'objectif principal de la textométrie (cf "Qu'est-ce que la textométrie ?") est de compter des éléments (des contenus textuels) dans des ensembles (des contenants regroupant des unités élémentaires d'un texte ou des zones de texte couvrant un certain nombre ou un certain type d'unités élémentaires). Les contenus se réalisent sous la forme de ressources textuelles (une séquence de caractères organisée en phrases, en paragraphes etc.). Les contenants existent sous la forme de système de masques ou de calques que l'on peut définir sur les contenus. Il s'agit de systèmes d'annotations que l'on peut définir sur tout ou partie des zones textuelles, ces annotations constituant en retour des accès sur les parties textuelles qu'elles définissent (le marquage des phrases ou des paragraphes étant un exemple d'annotation particulier pour décrire un certain niveau de la structure du texte). Le processus de comptage nécessite au préalable d'identifier les contenus et les contenants. Ce préalable consiste à expliciter une segmentation du texte conduisant à la mise au jour d'une trame sur laquelle des annotations pourront se greffer ultérieurement. [base-texto-general-4.gif] [ligne.gif] Trame et Cadre textométrique A partir d'un texte segmenté, la numérotation des items découpés dans le texte de départ permet de constituer un système de coordonnées sur le texte dans lequel chaque item est repéré par son numéro d'ordre. Nous appelons ce système de coordonnées sur la séquence textuelle : la Trame textométrique. Ce même système de coordonnées permet de définir et de localiser, au sein du corpus, des zones textuelles (zones formées par une suite d'items consécutifs, entre la position x1 la position x2, réunion d'un certain nombre de zones de ce type, etc.). La définition d'une trame textométrique sur un corpus de textes permet de décrire les systèmes de zones qui correspondent aux contenants de l'analyse textométrique (parties, paragraphes, phrases, sections, chapitres etc.). On peut rassembler les descriptions relatives aux systèmes de contenants dans une structure de données particulière le Cadre textométrique. [trame-cadre.gif] Nous appelons trameur l'outil informatique qui permet de construire une ressource textométrique trame/cadre, à partir d'une ensemble de textes rassemblés en corpus, selon les principes définis plus haut. La partie trame de la ressource textuelle produite par le trameur est constituée par la suite des items isolés lors de l'opération de segmentation. La partie cadre rassemble les données relatives aux différents découpages réalisés sur le corpus ainsi que les annotations déjà projetées sur les contenants ou les contenus constitués lors des étapes précédentes. La transmission d'une ressource textuelle constituée sous la forme trame/cadre constitue une solution suffisante pour servir de base à toute exploration textométrique ultérieure. ([Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle. (DOC)) [ligne.gif] Le Trameur Le Trameur : Programme de génération puis de gestion de la Trame et du Cadre d'un texte (le métier Textométrique) pour construire des opérations lexicométriques / textométriques. Le Trameur intègre le programme treetagger : système d'étiquetage automatique des catégories grammaticales des mots avec lemmatisation. Le Trameur est disponible en 2 versions : la " version Tk " et la " version console " [EMBED] Accès démo pleine page [EMBED] [ligne.gif] Documentation Documentation : format PDF, format HTML Ci-dessous, la documentation disponible en ligne via issuu : [EMBED] [ligne.gif] Exemples de Bases Textométriques Exemples de Bases Textométriques produites avec Le Trameur et réimportables : * Base Prématurés 96 (cf "Projet Prématurés") ; 2 fichiers dans cette archive : pour le premier, chaque item de la trame est associé à 3 niveaux d'annotation (forme, catégorie, lemme), pour le second, chaque item est associé à 4 niveaux d'annotation (forme, catégorie, lemme, sémantique). * Base Duchn : chaque item de la trame est associé à 3 niveaux d'annotation (forme, catégorie, lemme) * Base Convention (Russe-UTF8) : chaque item de la trame est associé à 3 niveaux d'annotation (forme, catégorie, lemme) * Base SOU 1790-2008 : chaque item de la trame est associé à 3 niveaux d'annotation (forme, catégorie, lemme). Descriptif : State of the Union (SOTU) provides access to the corpus of all the State of the Union addresses from 1790 to 2008. SOTU allows you to explore how specific words gain and lose prominence over time, and to link to information on the historical context for their use. SOTU focuses on the relationship between individual addresses as compared to the entire collection of addresses, highlighting what is different about the selected document. You are invited to try and understand from this information the connection between politics and languagebetween the state we are in, and the language which names it and calls it into being. cf State of the Union (Visualizations, Statistical Analysis, and Searchable texts). [ligne.gif] Exemples de rapports de travail produits avec Le Trameur : * Rapport n°1 : fichier de Travail "Le père Duchesne" (via 7.0b30). * Rapport n°2 : fichier de Travail "Le père Duchesne" (via 7.0b63). * Rapport n°3 : fichier de Travail "Discours 2007" (via 7.0b31). * Rapport n°4 : fichier de Travail "SOU 1790-2008" (via 7.0b105). * Rapport n°5 : fichier de Travail "Amharique", [texte en amharique (Ethiopie), installation préalable de ces polices] (via 8.0b52). * Rapport n°6 : fichier de Travail "Inaugural Adresses" (via 8.0b55). [ligne.gif] Nuages d'annotations sur la Trame (8.0 b057) : * Base Duchn * Nuage de formes sur la Trame de la Base Duchn. * Nuage de formes (les mots commençant par "républi") sur la Trame de la Base Duchn. * Nuage de lemmes sur la Trame de la Base Duchn. Base Prématurés 96 * Nuage de formes sur la Trame de la Base Prématurés 96. * Nuage de lemmes sur la Trame de la Base Prématurés 96. * Nuage de catégories sur la Trame de la Base Prématurés 96. * Nuage d'annotations sémantiques sur la Trame de la Base Prématurés 96. Base Amharique * Nuage de formes sur la Trame de Amharique. Base Inaugural Adresses * Nuage de formes sur la Trame de Inaugural Adresses. [ligne.gif] Nouveautés Dernières mises à jour de Le Trameur (version : 9.0b078) [ligne.gif] Téléchargement Trameur-tk, 9.0b078, (Version complète) sur demande à serge.fleury[at]univ-paris3.fr Trameur-tk, 9.0b078, (Version "allégée") setup-trameur-9-l.exe Comment installer la version complète à partir de la version dite "allégée" : Récupérez le setup précédent, puis procédez à l'installation. La version dite "complète" intègre aussi l'installation des 2 programmes externes treetagger et pajek La version dite "allégée" ne dispose pas des 2 programmes utilisables par Le Trameur : treetagger et pajek. Pour disposer de ces 2 modules, il est possible de réaliser un "installation" complémentaire en procédant comme suit : TREETAGGER : 1. Récupérez la version de Treetagger 3.2 pour windows (-> dézippez l'archive et localisez le programme tree-tagger.exe) 2. Récupérez les fichiers de langues utiles pour treetagger : + English parameter file (gzip compressed, Latin1) + German parameter file (gzip compressed, Latin1) + French parameter file (Latin1) (gzip compressed, information about this file) + French parameter file (utf-8) + Italian parameter file (gzip compressed, Latin1, information about this file) + Italian parameter file (gzip compressed, utf-8) + Dutch parameter file (gzip compressed, Latin1) + Spanish parameter file (gzip compressed, Latin1) + Bulgarian parameter file (gzip compressed, UTF-8) + Russian parameter file (Link) 3. Placez le programme tree-tagger.exe dans le répertoire courant du Trameur 4. Placez les fichiers de langue dans le sous-répertoire langues du répertoire courant du Trameur PAJEK : 1. Récupérez Pajek 2. Installez Pajek sur votre poste de travail et localisez le programme PAJEK.exe (dans le lieu d'installation de Pajek) 3. Placez le programme PAJEK.exe dans le sous-répertoire Pajek du répertoire courant du Trameur Trameur-console, 7.00, sur demande à serge.fleury[at]univ-paris3.fr [ligne.gif] Le Trameur Version console Générateur d'un cadre et d'une trame (le métier) pour la construction de ressources lexicométriques incrémentales. Le Trameur en mode console s'utilise dans une fenêtre de commandes : [0.jpg] Figure 1 : Le Trameur, version console. Le seul objectif de ce programme est de construire le cadre et la trame d'un fichier. [ligne.gif] Le Trameur Version Tk Le Trameur-Tk : Programme de génération puis de gestion (dans une interface graphique) de la trame et du cadre d'un texte (le métier lexicométrique) pour des opérations lexicométriques. [ligne.gif] Copies d'écran [0a.jpg] Figure 2 : Chargement d'un texte : construction de la trame et du cadre. Matérialisation du cadre. [0b.jpg] Figure 3 : Chargement d'un texte : construction de la trame et du cadre. Matérialisation d'une arborescence XML. [1.jpg] Figure 4 : Le cadre. Accès au texte par le cadre. Edition d'un item de la trame. [2.jpg] Figure 5 : Concordances. [3.jpg] Figure 6 : Concordances. Edition d'un item de la trame. [4.jpg] Figure 7 : Courbe de ventilation d'un item (formes). [5.jpg] Figure 8 : Courbe d'accroissement du vocabulaire. [6.jpg] Figure 9 : Carte des sections. Edition de la trame. [7.jpg] Figure 10 : Carte des sections. Recherche de coccurrents. [8.jpg] Figure 11 : (1) Recherche de patron et extraction de séquences de termes associées. [12.jpg] Figure 12 : (2) Recherche de patron : affichage des séquences de termes associées et graphe de mots (sortie le Trameur). [9.jpg] Figure 13 : (2) Recherche de patron : affichage des séquences de termes associées et graphe de mots (sortie Pajek). [nom-adj-duchn.gif] Figure 14 : Graphe (complet) du patron NOM ADJ dans le Père Duchesne (cf rapport supra). [nom-adj-lib-duchn.gif] Figure 15 : Graphe (partiel) du patron NOM ADJ (contenant "\blib") dans le Père Duchesne (cf rapport supra). [polycooc-foutre-duchn.gif] Figure 16 : Graphe des polycooccurrents de "foutre" dans le Père Duchesne (cf rapport supra). [10.jpg] Figure 17 : Sélection d'items de la trame. [11.jpg] Figure 18 : Le gestionnaire de sélections. [20081215-2.gif] Figure 19 : Le gestionnaire de sélections : sauvegarde d'une sélection. [selection-multicritere.jpg] Figure 20 : Le gestionnaire de sélections : sélection multicritère [06052008-3.jpg] Figure 21 : Le rapport : élément de type graphique. [15.gif] Figure 22 : Graphe et annotations. [AFC-duchn-mois-forme.png] Figure 23 : AFC, partition sélectionnée, annotation n°1 (forme), affichage des items spécifiques sur le graphe. [AFC-duchn-mois-categ.png] Figure 24 : AFC, partition sélectionnée, annotation n°3 (catégorie), affichage des items spécifiques sur le graphe. [cooc.jpg] Figure 25 : Réseau de cooccurence autour d'un pôle, annotation n°1 (forme). [polycoocs.jpg] Figure 26 : Réseau de polycooccurrence autour d'un pôle, annotation n°1 (forme). [ligne.gif] Liens Projet Textomètre par Michel Jacobson. Maquette d'un logiciel illustrant le principe de distinction des concepts de "trame" et de "cadre" pour l'exploration textométrique de ressources textuelles. Cette maquette implémente déjà quelques fonctions utilisables et peut-être utiles. Cette maquette illustre aussi les possibilités offertes par les nouveaux standards tels que XML ou Unicode pour la textometrie. Projet ANR 2006 - Programme "Corpus et outils de la recherche en sciences humaines et sociales". Textométrie : Fédération des recherches et développements en textométrie autour de la création dune plateforme logicielle ouverte (Coordinateur : Serge Heiden). Le site Projet Textométrie. JADT'2008 : http://jadt2008.ens-lsh.fr/. Les Journées internationales dAnalyse statistique des Données Textuelles (JADT) réunissent tous les deux ans, depuis 1990, des chercheurs travaillant dans les différents domaines concernés par les traitements automatiques et statistiques de données textuelles : statisticiens, linguistes, sociologues, spécialistes danalyse du discours, informaticiens, spécialistes de lexicographie et de fouille de textes. Elles permettent aux participants de présenter leurs résultats, de confronter leurs outils et leurs expériences. Les JADT 2008 se tiendront en France, à Lyon, à lEcole normale supérieure Lettres et Sciences humaines. Lexico : http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/lexicoWWW/ Wiki Lexicométrie : http://tal.univ-paris3.fr/wakka/wakka.php?wiki=Glossaire [ligne.gif] Lectures [Söze-Duval, 2008], Keyser Söze-Duval. Pour une textométrie opérationnelle. (DOC) [Heiden, 2006], Heiden Serge, " Modèles de données et formats d'échange pour l'interopérabilité des outils de textométrie " (PDF), in Actes des 8èmes Journées d'analyse statistique des données textuelles, Besançon, 2006. [Lafon, 1984], Lafon Pierre. Dépouillements et statistiques en lexicométrie. Genève-Paris, Slatkine-Champion. [Lamalle, 2002], Lamalle C., Salem A., " Types généralisés et topographie textuelle dans l'analyse quantitative des corpus textuels "(PDF), in Actes des 6èmes Journées d'analyse statistique des données textuelles, St Malo, Inria, 2002. [Lebart, 1994], Lebart L. et Salem A. (1994). Statistique textuelle (en ligne). Paris, Dunod. [Pincemin, 2008], Bénédicte Pincemin (CNRS/ICAR). "Modélisation textométrique des textes" (PDF), in Actes JADT 2008, Journées Internationales d'Analyse Statistiques des Données Textuelles, Lyon 2008. [Salem, 2006], André Salem, Cédric Lamalle, Serge Fleury (EA2290 SYLED/CLA2T). "Vers une description formelle des traitements textométriques" (PDF), in Actes JADT 2006, Journées Internationales d'Analyse Statistiques des Données Textuelles, Besançon 2006. [ligne.gif] CLA^2T/SYLED Lexico3 Projet Textométrie Wiki Lexicométrie Lexicometrica JADT TAL/P3 (pluri)TAL page counter Nouveautés 2007 | CLA^2T/SYLED | http://tal.univ-paris3.fr/trameur/ | Contact : serge.fleury[at]univ-paris3.fr | MàJ : 01/10/2010 | Site Meter