iTrameur : Analyse textométrique des données dans un fichier...

Paramètres

Chargement
Trame
Cadre
SR/Patron
Section
Coocs
Bi-Texte
Dépendance
Sélection
Export
Aide

Création d'une nouvelle base / Importation d'une base

Deux possibilités pour charger des données dans iTrameur :

1. Charger un fichier (nouvelle base) au format TXT brut, encodé en UTF-8, en ayant préalablement partitionné son contenu (cf onglet Aide).
2. Importer une base annotée déjà constituée (cf onglet Aide pour le format de cette base).

Une fois la base chargée, les données textuelles sont représentées sous la forme d'une Carte des sections (sections définies via le délimiteur de contexte choisi) qui apparaît au bas de cette page.

1. Nouvelle base
1. Importer une base
2. Délimiteur de contexte	(si cette zone est vide, contexte=ligne)
3. Délimiteur(s)
4. Bi-texte	(chargement d'un bitexte aligné cf Aide)
5. Dépendance	(chargement d'une base avec annotations en dépendance cf Aide)

Opérations sur la Trame

(Parties)
Annotations à fusionner : &

Opérations sur le Cadre

Partition 1 Partition 2

Opérations sur les Segments Répétés

Opérations sur les Patrons

Annotation patron Patron Annotation terme

Opérations sur la Carte des Sections

Calcul de cooccurrents

NB terme gauche NB terme droite

StopListe="Gestionnaire de Sélection"

Gestionnaire de sélection

Sauvegarde Base

Le Trameur / iTrameur aka Le Métier Textométrique

Dans une perspective lexicométrique / textométrique, représentation du texte en machine sous la forme d'une Trame et d'un Cadre (i.e le métier textométrique), pour ensuite réaliser des calculs textométriques.

Le Trameur (http://www.tal.univ-paris3.fr/trameur/) est un programme d’analyse comportant de nombreuses fonctionnalités pour l’analyse automatique, statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation. Ce logiciel est à l’origine un outil de textométrie : il intègre les fonctionnalités classiques de ce type d’outils dans ce domaine. Il dispose aussi des fonctionnalités particulières qui permettent d’annoter dynamiquement des corpus ou d’explorer des ressources richement annotées (treebanks monolingues/multilingues ou des alignements).

iTrameur est une application en ligne mettant en oeuvre des fonctionnalités disponibles dans Le Trameur : iTrameur est une application qui fonctionne dans votre navigateur habituel (de préférence Firefox ou Chrome). iTrameur permet :

- de charger un fichier (structuré en parties et/ou découpé en sections) ou une base annotée (même type de structuration et comportant en outre plusieurs couches d'annotation : forme, lemme, catégorie, etc.). Le texte chargé (ou la base importée) peut aussi être un bitexte (un corpus aligné par exemple)

- d'explorer les données chargées via les opérations textométriques "classiques" : dictionnaire, concordancier, spécificités, segments répétés, graphique de ventilation, cooccurrents, etc.

- d'explorer des corpus richement annotés (treebanks monolingues/multilingues ou des alignements).

iTrameur regroupe par ailleurs des modules déjà disponibles en ligne :

iTrameur-Specif-Partie : les mots spécifiques d'une partie d'un corpus ; navigation via la carte des sections

iTrameur-CooCs-Bitext : les cooccurrents d'un pôle sur un corpus aligné (avec retour en contexte); navigation via la carte des sections alignées

iTrameur-CooCs : un graphe de cooccurrents sur un pôle donné (avec retour en contexte); navigation via la carte des sections

iTrameur-CooCs-regexp : un graphe de cooccurrents sur un ensemble de pôles définis via une regexp ; navigation via la carte des sections

iTrameur-Réseau CooCs : un réseau de cooccurrences généralisées.

Autres Développements en cours

iTrameur-Ecriscol : Une version de iTrameur pour l'exploration d'un corpus de copies d'élèves (Projet ECRISCOL) : http://www.tal.univ-paris3.fr/trameur/iTrameur-Ecriscol/.

iTrameur-Naija : Une version de iTrameur pour l'exploration du Naija (Projet NAIJA SYNCOR) : http://www.tal.univ-paris3.fr/trameur/iTrameur-naija/admin-dashboard.html.

Lectures

Fleury Serge, Maria Zimina, Trameur: A Framework for Annotated Text Corpora Exploration, Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: System Demonstrations, August 2014, Dublin, Ireland, pages 57-61, (PDF). Slides (PDF)

Zimina Maria, Fleury Serge, "Perspectives de l’architecture Trame/Cadre pour les alignements multilingues". Nouvelles perspectives en sciences sociales : revue internationale de systémique complexe et d'études relationnelles, volume 11, numéro 1, novembre 2015. http://www.erudit.org/revue/npss/2015/v11/n1/index.html. [Résumé]

Maria Zimina, Fonctions avancées de l’analyse textométrique pour les corpus multiannotés. Ressources en ligne.

Maria Zimina, Formation “Introduction à la textométrie multilingue”. Ressources en ligne.

Format d'entrée (Nouvelle base)

Les textes pris en charge par iTrameur doivent être au format TXT BRUT et encodés en UTF-8.

Découpage en sections

Ces textes peuvent être préparés en amont pour y introduire des caractères permettant de mettre au jour des sections dans le texte.
La mise au jour de sections peut aussi utiliser un caractère délimiteur déjà présent dans le texte (par exemple le caractère point . ) ; dans ce cas il convient de choisir ce caractère comme délimiteur de contexte avant de charger le fichier ou avant de construire une carte des sections. Si le caractère choisi comme délimiteur de sections n'est pas présent dans le corpus, la carte des sections s'affiche par defaut en utilisant le caractère "retour à la ligne".

Ce découpage peut mettre au jour une segmentation du texte en phrases, en paragraphes ou en parties par exemple (à défaut, le découpage en lignes peut être utilisé pour mettre au jour des sections).

Illustration sur ce fichier : Le Dormeur du val ; ici le caractère § met au jour une segmentation du texte en "ligne".

Découpage en parties

Ces textes peuvent aussi être préparés en amont pour y introduire des jalons textuels (des balises) permettant de mettre au jour des partitions dans le texte.

Illustration sur ces fichiers :

Le Dormeur du val (balisage "étendu" : chaque partie est encadrée par une balise ouvrante et une balise fermante)

Le Dormeur du val (balisage xml : le document est un arbre d'éléments)

Le balisage d'une partition se fait en introduisant pour chaque partie :

une balise d'ouverture que l'on peut écrire de la manière suivante <partie="valeur"> ou aussi <partie attribut="valeur">

et une balise de fermeture : </partie> (dans tous les cas...)

dans cet exemple, la partition sera décrite par des parties associées chacune à la balise définie (<partie="valeur"> par exemple), la valeur associée identifiera la partie visée dans la partition

Exemples de corpus de travail

Tous les fichiers suivants peuvent être téléchargés puis ouverts comme Nouvelle Base dans iTrameur. Ils peuvent aussi être directement chargés via les liens disponibles ci-dessous.

Corpus "Le Père Duchesne" : dans ce fichier, on trouve à la fois un découpage en sections et plusieurs systèmes de parties. Nouvelle base

Corpus "Campagne présidentielle 2017" (source : http://hyperbase.unice.fr/hyperbase/) : dans ce fichier, on trouve à la fois un découpage en sections et 2 systèmes de parties (par candidat, par date-candidat). Nouvelle base

Corpus "CFPP2000" (32 entretiens) (source : http://cfpp2000.univ-paris3.fr/Corpus.html) : dans ce fichier, on trouve à la fois un découpage en tour de paroles et 3 systèmes de parties (par quartier, par transcription et par interlocuteur). Nouvelle base

Corpus "Les Fleurs du Mal" : dans ce fichier, on trouve à la fois un découpage en sections (chaque vers) et plusieurs systèmes de parties. Nouvelle base

Bi-textes alignés

Il est possible de charger un bitexte avec 2 volets alignés : balisage pour le marquage des volets et marquage de sections alignées par un caractère délimiteur. L'alignement est induit par un nombre de marqueurs de sections identique dans les 2 volets.

Exemples de corpus aligné

Tous les fichiers suivants peuvent être téléchargés puis ouverts comme Nouvelle Base dans iTrameur. Ils peuvent aussi être directement chargés via les liens disponibles ci-dessous.

Corpus "Discours d'investiture de B. Obama (bitexte en/fr)" : dans ce fichier, on trouve à la fois un découpage en sections alignées (le caractère §) et un système de parties via la balise VOLET. Nouvelle base

Corpus "Ulysse (bitexte en/fr)" : dans ce fichier, on trouve à la fois un découpage en sections alignées (le caractère §) et un système de parties via la balise VOLET (source). Nouvelle base

Format d'entrée (Base annotée)

Une base textométrique annotée est un fichier contenant une segmentation (Trame, cf documentation Le Trameur) et un système de parties (Cadre, idem).

La base à importer doit contenir au moins 3 couches d'annotation (a minima : forme, catégorie, lemme).

Il est possible de spécifier sur la première ligne de la base les labels des annotations associées à chaque item de la Trame(segmentation). Chaque label doit être introduit par la caractère # et les labels sont séparés par une tabulation (même format que pour le reste de la Trame).

Exemple ci-dessous :

#Num  #type  #Forme  #POS  #Lemme

(voir aussi les bases de test fournies infra)

La base contient des informations intégrées dans un fichier tabulé (au format TXT BRUT et encodés en UTF-8):

1. La première partie du fichier contient une description de la segmentation en mots avec un mot par ligne. Chaque colonne décrit les informations associées à cette forme graphique sous la forme suivante :

position type forme catégorie lemme annot4 annot5 etc.

Une tabulation sépare chaque élément décrivant le mot visé.

On donne à voir ci-dessous sous la forme d'un tableau le contenu d'un extrait d'un fichier tabulé illustrant la représentation d'une trame annotée :

Position Type FORME POS LEMME ETC.

1 forme une DET un ...

2 delim DELIM DELIM ...

3 forme base NOM base ...

4 delim DELIM DELIM ...

5 forme textométrique ADJ textométrique ...

6 ... ... ... ... ...

Remarques :
- dans les lignes 2 et 4 le caractère "espace" est présent dans le fichier tabulé entre le type delim et le lemme DELIM
- le caractère tabutation doit avoir pour forme la notation TABULATION (idem pour son lemme et sa catégorie)
- le caractère "retour à la ligne" doit avoir pour forme la notation RETURN (idem pour son lemme et sa catégorie)

Les annotations sur chaque mot peuvent être soit des valeurs associées au mot pour l'annotation visée soit des annotations marquant une relation entre 2 items de la Trame. C'est le cas des annotations de dépendance syntaxique (cf corpus de test infra).

Les annotations en dépendance doivent être notées ainsi : RELATION(i). Ce type d'annotation est porté par le dépendant, RELATION est le nom de la relation de dépendance (SUB, OBJ par exemple) et i est la position du gouverneur sur le Trame (cf documentation Le Trameur).

2. La seconde partie du fichier contient une description des systèmes de parties définies sur la segmentation en mots : une partie par ligne, chaque colonne décrit les informations associées à cette partie sous la forme suivante :

PARTITION:nom PARTIE:valeur DEBUT:positiondebut FIN:positionfin

Exemples de bases annotées

Toutes les bases suivantes peuvent être téléchargées puis importées dans iTrameur. La plupart d'entre elles peuvent aussi être directement importées via les liens disponibles ci-dessous.

Base "Le Dormeur du val" (udpipe) : base textométrique avec labels des annotations sur la première ligne de la base, avec 6 couches d'annotations (forme, lemme, catégorie, XPOSTAG, FEATS, DEPREL(HEAD)) et 3 partitions. Annotations réalisées via udpipe (cf paragraphe "Annotation de données" ci-dessous). Importer la base

Base Test "Prématurés 96" : (présentation du corpus et ressources associées) base textométrique avec labels des annotations sur la première ligne de la base, avec 4 couches d'annotations (forme, lemme, catégorie, sémantique) et 2 partitions (bébé, fiche). Importer la base

Base "Le Père Duchesne" : base textométrique avec labels des annotations sur la première ligne de la base, avec 3 couches d'annotations (forme, lemme, catégorie) et 2 partitions. Importer la base

Base "Le Père Duchesne" (udpipe) : base textométrique avec labels des annotations sur la première ligne de la base, avec 6 couches d'annotations (forme, lemme, catégorie, XPOSTAG, FEATS, DEPREL(HEAD)) et 3 partitions. Annotations réalisées via udpipe (cf paragraphe "Annotation de données" ci-dessous). Importer la base

Base "CFDT 1973-2026" (udpipe) : base textométrique avec labels des annotations sur la première ligne de la base, avec 6 couches d'annotations (forme, lemme, catégorie, XPOSTAG, FEATS, DEPREL(HEAD)) et 1 partition (cf "Les séries textuelles chronologiques", A. Salem 1991). Annotations réalisées via udpipe (cf paragraphe "Annotation de données" ci-dessous). Importer la base

Base "Rhapsodie (extrait)" : base textométrique avec 4 couches d'annotations (forme, lemme, catégorie, dépendance syntaxique). Importer la base

Base "Rhapsodie (complète)" : base textométrique (avec labels des annotations sur la première ligne de la base) avec 61 couches d'annotations cf README pour le détail des annotations . Importer la base

Base "Partut 2 volets alignés" : base textométrique avec 10 couches d'annotations cf README pour la présentation de la base et le détail des annotations. Importer la base

Base "Obama 2 volets alignés" : base textométrique avec 3 couches d'annotations (forme, lemme, catégorie) et 1 partition (2 volets). Importer la base

Base "Campagne présidentielle 2017" (source : http://hyperbase.unice.fr/hyperbase/) : dans ce fichier, on trouve à la fois un découpage en sections et 2 systèmes de parties (par candidat, par date-candidat). Base textométrique avec 3 couches d'annotations (forme, lemme, catégorie). Importer la base

Base "CFPP2000" (32 entretiens) (source : http://cfpp2000.univ-paris3.fr/Corpus.html) : base textométrique avec 3 couches d'annotations (forme, lemme, catégorie), on trouve à la fois un découpage en tour de paroles et 3 systèmes de parties (par quartier, par transcription et par interlocuteur). Importer la base

Base "UE (MZ)"

Base "NAIJA (gold 05/05/2021)" : avec labels des annotations sur la première ligne de la base. Importer la base

Base "RSS-3208 2017 : 2 volets alignés" : base textométrique avec 6 couches d'annotation (forme, lemme, catégorie, morpho-syntaxe, dépendance...). Annotations construites via Talismane : Talismane is a natural language processing framework with sentence detector, tokeniser, pos-tagger and dependency syntax parser. Cette base regroupe les contenus textuels des fils RSS (titre et description) de la rubrique "A la Une" du journal "Le Monde" sur l'année 2017. L'alignement construit permet de distinguer 2 volets via le caractère £ comme délimiteur de sections sur la partition VOLET : les titres versus les descriptions des articles contenus dans chaque fil RSS. En outre : Corpus chronologique sur la partition MOIS. Importer la base

Base "RSS-3208 2018 : 2 volets alignés" : idem pour l'année 2018. Importer la base

Bases ECRISCOL - Bases de TEST : Importer la base CE1, la base CE2, la base CM1, la base CM2, la base 6ème, la base 3ème, la base 2nde, la base Term, la base Univ, la base Tous Niveaux (corrections en cours)

Base ECRISCOL - Base de TEST : EGL CM2 2016 - alignement V2-V3

Bases ProText :

Bases de test Simili-Txt : Importer base V1, base V2
Bases de test Rapport : Importer base V1, base V2
Bases de test Rapport (nouvelle segmentation) : base V3, base V4 (4 partitions : rapport, scripteur, session, phrase)

Bases de test Etudiants : base V1 (4 partitions : rapport, scripteur, session, phrase)

Annotation de données

L'archive ci-dessous contient des ressources pour annoter des données via UDpipe 1. Le fichier README disponible dans l'archive donne une description de la méthode à suivre pour réaliser cette annotation. Les données annotées peuvent ensuite être reformatées en une base annotée pour iTrameur via un script perl (lui aussi disponible dans l'archive). L'archive contient une ressource (un modèle) pour annoter des données en français. Pour les autres langues, il convient de récupérer la ressource idoine : Universal Dependencies 2.5 Models: udpipe-ud2.5-191206

Archive udpipe2iTrameur : distrib-udpipe-1.2.0-bin.zip
Manuel udpipe : https://ufal.mff.cuni.cz/udpipe/1/users-manual

Chargement d'un fichier (Nouvelle base)

Le bouton permet de charger le fichier visé.
Avant l'ouverture de ce fichier, il faut au préalable :

choisir les caractères délimiteurs utilisés pour segmenter le texte en mots (par défaut, une liste de délimiteurs classiques est disponible) ;

choisir le caractère délimiteur de sections qui sera utilisé à l'issue du chargement pour construire la représentation du texte sous la forme d'une Carte des sections (cf documentation Le Trameur).

Il sera ensuite possible de modifier cette représentation en sélectionnant un autre délimiteur de sections.

Pour tenir compte d'un bitexte aligné dès le chargement, il convient au préalable de cocher la case idoine avant de sélectionner le fichier : 4. Bi-texte : .

Comment annoter une base après son chargement ?

Le module d'export permet de sauvegarder la base chargée dans un format tabulé qu'il est possible d'enrichir (en ajoutant des colonnes pour décrire les différentes annotations à intégrer, par exemple en utilisant un tableur "classique" type Excel), cf supra pour la description d'une base annotée.

Le bouton permet de sauvegarder localement la base chargée dans un fichier au format txt brut (encodé en utf-8) ; ce fichier contient La Trame et Le Cadre. Il peut être corrigé et enrichi (ajout d'annotations par exemple) puis réimporté dans le logiciel. Son format de description de La Trame et du Cadre est similaire au format des bases présentées supra.

Etiquetage via treetagger d'une Base exportée

L'archive suivante base-iTrameur2treetagger contient des ressources pour annoter via treetagger un fichier initialement chargé dans iTrameur puis exporté : le fichier exporté est étiqueté puis reformaté pour intégrer les annotations produites par treetagger.

Importer une base annotée

Le bouton permet de charger la base visée.

Avant l'ouverture de ce fichier, il faut au préalable :

Choisir le caractère délimiteur de sections qui sera utilisé à l'issue du chargement pour construire la représentation du texte sous la forme d'une Carte des sections (cf documentation Le Trameur).

Si la base annotée contient un bitexte aligné, il convient de cocher la case idoine avant de charger le fichier : 4. Bi-texte : .

Si la base annotée contient des annotations en dépendance, il convient de cocher la case idoine pour charger les fonctionnalités associées aux traitements de ces dépendances : 5. Dépendance : .

Le nombre d'annotations disponible après chargement est visible via la liste Annotations. Les calculs présentés infra sont accessibles sur le niveau d'annotation sélectionné au préalable.

Visualisation des annotations

Dès qu'une base annotée est chargée, toutes les zones d'édition de l'application (concordance, section etc.) permettent de visualiser les annotations de chaque item de la Trame (les mots) : il suffit de passer le pointeur de la souris sur le mot visé (cf Le Trameur).

Trame

Dictionnaire

Pour visualiser le dictionnaire de toutes les formes graphiques (annotation n°1) issues de la segmentation réalisée après le chargement du fichier visé, appuyez sur le bouton . Même chose sur les autres niveaux d'annotation (2 : lemme ; 3 : catégorie ; etc.).

Le dictionnaire visé apparaît sous la forme d'un tableau permettant :
d'explorer le contenu du dictionnaire
de lancer des opérations sur chacun de ses items : concordance, ventilation, carte des sections, sélection

Concordance

Le bouton permet de mettre au jour une concordance du Pôle sélectionné. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Il est possible de réaliser une concordance de plusieurs items simultanément : il suffit de saisir le nom de chacun des items dans la zone de saisie Pôle en les séparant par un espace.

Si une base annotée en dépendance est chargée, il est possible de visualiser en contexte une relation de dépendance associée au pôle visé (le pôle étant le gouverneur dans cette relation) : par exemple, si on calcule une concordance du lemme "penser" et si on complète le paramétrage de manière suivante : Relation : n°Annot. Relation , la concordance construite mettra au jour la relation de dépendance OBJ, cette relation étant associée au niveau d'annotation n°4 (i.e les objets de "penser").

Accroissement Vocabulaire

Le bouton met au jour la courbe d'accroissement du vocabulaire sur le corpus complet. Si la case à cocher "(Parties)" est active, l'accroissement du vocabulaire est affiché pour chacune des parties de la partition en cours (cf. Paramètres).

Fusion d'annotation

Sur une base chargée comportant au moins 3 annotations (forme, lemme, categorie), il est possible de créer une nouvelle couche d'annotation par fusion de 2 annotations existantes. Le bouton réalise cette fusion à partir des numéros d'annotation renseignés dans les 2 listes associées Annotations à fusionner. Le résultat final est la concaténation sur chaque item des valeurs des annotations visées pour cet item sous la forme suivante : annotⁱ_annot^j.

Cadre (système de parties)

Cadre

Le bouton donne à voir une représentation graphique de l'organisation des parties (et de leurs enchâssements).
Cette représentation permet par exemple de vérifier la structuration des parties codée en amont dans le corpus par le système de balises mis en place.

Parties

Le bouton donne à voir sous la forme d'un tableau les différents systèmes de parties repérées et les positions de chacune sur la Trame.
Le résultat apparaît sous la forme d'un tableau.

Ventilation (parties)

Pour visualiser la ventilation d'un mot dans le corpus sur une partition donnée via un graphique de ventilation, il faut renseigner la zone de saisie Pôle , sélectionner une partition dans la zone Partition puis appuyer sur le bouton . Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Le résultat donne à voir 2 graphiques :

une ventilation en fréquence absolue sur la partition choisie ;

une ventilation en fréquence relative sur cette même partition ;

une ventilation en spécificité sur cette même partition.

Il est possible de réaliser ce genre de graphique pour plusieurs items simultanément : il suffit de saisir le nom de chacun des items dans la zone de saisie Pôle en les séparant par un espace.

PCLC

Le bouton donne à voir sous la forme d'un tableau les Principale Caractéristiques Lexicométriques de la partition sélectionnée.
Le résultat apparaît sous la forme d'un tableau.

Spécificités d'une partie

Le bouton donne à voir sous la forme d'un tableau le vocabulaire spécifique de la partie choisie dans la partition sélectionnée.
Le résultat apparaît sous la forme d'un tableau. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Spécificités totales

Le bouton permet de mettre au jour un tableau donnant à voir pour tous les mots de fréquence supérieure à la valeur FQ MAX leur fréquence et leur indice de spécificité sur toutes les parties induites par la partition sélectionnée. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Les mots spécifiques(+) d'une partition

Le bouton permet de mettre au jour un tableau donnant à voir les mots de spécificités positives sur une partition donnée.
Ce calcul intègre les mots dont la fréquence est supérieure à la valeur FQ MAX et dont l'indice de spécificité, dans la partie visée de la partitition sélectionnée Partition, est supérieur à la valeur IndSPmin.
Les résultats sont aussi présentés sous la forme d'un graphique associant pour chaque partie ses mots spécifiques.
Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Barycentre temporel / Coefficient Von Neumann

Quand la base chargée est un corpus chronologique, le bouton permet de mettre au jour un tableau donnant à voir pour tous les mots de fréquence supérieure à la valeur FQ MAX d'une part leur fréquence absolue sur toutes les parties induites par la partition sélectionnée puis un indicateur appelé barycentre temporel et enfin le coefficient de Von Neumann (cf "Les séries textuelles chronologiques", A. Salem 1991). Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Si les SR ont été calculés auparavant, le tableau final les intégrera (attention cependant, le temps de calcul est dans ce cas plus long...).

Croisement de partitions

Il est possible de construire dynamiquement une nouvelle partition en croisant 2 partitions déjà disponibles. Pour cela il suffit de saisir les noms de 2 parties visées Partition 1  Partition 2 puis d'activer le bouton . Au final, la nouvelle partition est créée et toutes ses parties sont disponibles pour les calculs définis.

SR/Patron

Segments répétés

Le bouton lance le calcul des segments répétés (dont le paramétrage par défaut est : SR LGmax : 12 SR FQMin : 10). Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le résultat visé apparaît sous la forme d'un tableau permettant :
d'explorer le contenu du tableau
de lancer des opérations sur chacun de ses items : concordance, ventilation, carte des sections
Remarque : une fois les segments répétés mis au jour par ce calcul, tous les segments sont visualisables en contexte dans chaque section éditée par un soulignement de chaque segment.

Carte Sections(SR)

Le bouton permet de réaliser la projection sur la Carte des Sections du segment répété fourni dans la zone de saisie : SR

Ventilation(SR)

Le bouton permet de produire la ventilation sur la partition sélectionnée du segment répété fourni dans la zone de saisie : SR

Concordance(SR)

Le bouton permet de construire la concordance du segment répété fourni dans la zone de saisie : SR

Patron

Extraction Patron

Sur une base chargée comportant au moins 3 annotations (forme, lemme, categorie), il est possible de d'extraire des patrons sur une couche d'annotation donnée pour produire la liste des termes associés. Le bouton réalise cette extraction à partir du numéro d'annotation utilisé pour identifier le patron : Annotation patron , du patron visé : Patron (le patron comporte des éléments séparés par un espace) et de l'annotation visée pour les termes à produire : Annotation terme .
Dans les valeurs données ici par défaut, on extrait le patron NOM ADJ, annotation n°3 i.e la catégorie, et on produit la liste des termes associés pour l'annotation n°1 i.e les formes graphiques.
IMPORTANT : On dispose d'un JOKER dans l'écriture d'un patron : le patron NOM ANY permet ainsi de récupérer toutes les séquences composées d'un nom suivi par n'importe quelle catégorie.

Graphique Patron

Opération similaire à la précédente, mais dans ce cas les termes résultants sont affichés sous la forme d'un graphique ; il est possible de filtrer les termes résultants en entrant dans la zone de saisie Pôle un motif exprimé sous la forme d'une expression régulière : dans ce cas seuls les termes contenant le motif sont affichés. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Sélection Patron

Opération similaire à la précédente, mais dans ce cas les termes résultants ne sont pas affichés en sortie mais ajoutés au Gestionnaire de Sélection ; ils seront visualisables en contexte, par exemple, au moment de l'affichage d'une section, ils seront mis au jour sur un fond de couleur orangée.

Concordance Patron

Opération quasi similaire à l'extraction, mais dans ce cas les termes résultants sont affichés en contexte dans un concordancier.

Carte Sections (Sél. Patron)

Cette opération permet de projeter sur la Carte des Sections le patron préalablement sélectionné par l'opération "Sélection Patron". Il peut être nécessaire de vider le Gestionnaire de Sélection avant de lancer cette opération pour ne garder que le dernier patron sélectionné dans le Gestionnaire de Sélection.

Section

Carte des sections

A l'issue du chargement du fichier, le texte est représenté sous la forme d'une carte des sections (cf documentation Le Trameur). Le découpage du texte en sections est construit à partir du caractère délimiteur de sections défini préalablement dans la zone de saisie : 2. Délimiteur de contexte.
Remarque : si le caractère choisi comme délimiteur de sections n'est pas présent dans le corpus, la carte de sections s'affiche en utilisant le caractère "retour à la ligne".

Pour visualiser une section, un clic sur la section visée déclenche l'édition de la section au dessous de la carte.

Pour visualiser la ventilation d'un mot dans le corpus via cette carte, il faut renseigner la zone de saisie Pôle puis appuyer sur "entrée" ou sur le bouton .

Il est possible de réaliser la visualisation dans la carte pour plusieurs items simultanément : il suffit de saisir le nom de chacun des items dans la zone de saisie Pôle en les séparant par un espace.

Ventilation (sections)

Pour visualiser la ventilation d'un mot dans le corpus (sur la partition induite par le découpage en sections) via un graphique de ventilation, il faut renseigner la zone de saisie Pôle puis appuyer sur le bouton . Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Le résultat donne à voir 2 graphiques :

une ventilation en fréquence absolue sur la partition induite par le découpage en sections réalisé préalablement ;

une ventilation en spécificité sur cette même partition.

Sélection de sections

Un clic-droit sur une section permet de la sélectionner. La zone de saisie NB sélection section permet de sélectionner le nombre de sections ainsi paramétré à la droite de celle sur laquelle le clic-droit est activé.

Vocabulaire spécifique d'une sélection de sections

Pour calculer le vocabulaire spécifique d'une sélection de sections, il faut commencer par sélectionner les sections visées (clic-droit sur chaque section : le contour devient bleu), puis activer le bouton . Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le résultat apparaît sous la forme d'un tableau.

Remarque : dès qu'une forme est recherchée dans la carte des sections, les sections concernées sont automatiquement sélectionnées.

Les cooccurrents d'une forme pôle

Pour calculer les cooccurrents d'une forme pôle donnée, il faut renseigner la zone de saisie Pôle puis appuyer sur le bouton . Ce calcul de cooccurrence s'appuie sur les contextes induits par la Carte de sections construite préalablement. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Spécificités totales

Une fois chargée la carte des sections (i.e mise en jour implicite d'une partition en sections), le bouton permet de mettre au jour un tableau donnant à voir pour tous les mots de fréquence supérieure à la valeur FQ MAX leur fréquence et leur indice de spécificité sur toutes les parties induites par cette partition (le découpage en sections). Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.

Coocs

Calcul de cooccurrents

Le bouton calcule les cooccurrents du pôle source dans une fenêtre contextuelle autour du pôle source, contenant le nombre de mots à gauche défini par la zone saisie : Nb Terme Gauche : idem pour le nombre de mots à droite avec : Nb Terme Droite : . Par défaut, ce calcul de cooccurrence est réalisé en ne retenant que les candidats cooccurrents dont l'indice de spécificité est supérieur à la valeur IndSpMin.

Le calcul met au jour un graphe de cooccurrence. Les cooccurrents mis au jour sont aussi visibles en contexte (via des liens hypertexte disponibles sur chaque item du tableau construit à l'issue du calcul).

Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Calcul de cooccurrents sur une partie

Le bouton effectue la même opération que la précédente mais en restreignant les calculs sur la partie préalablement sélectionnée (pour une partition donnée, il faut sélectionner la partie visée).
Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Réseau de cooccurrents

Le bouton effectue le calcul des cooccurrents sur l'ensemble des items de fréquence supérieure à Fq Max.
Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Réseau de cooccurrents sur une partie

Le bouton effectue la même opération que la précédente mais en restreignant les calculs sur la partie préalablement sélectionnée (pour une partition donnée, il faut sélectionner la partie visée).
Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Calcul de cooccurrents / stopliste

Pour les calculs de cooccurrents précédents, il est possible d'utiliser le Gestionnaire de Sélections comme une stop-liste. Il convient pour cela d'activer la case à cocher StopListe="Gestionnaire de Sélection" et de sélectionner préalablement les items à exclure de ces calculs (par exemple à partir du dictionnaire)

Bitexte

Ce menu est accessible si la case à cocher : Bi-texte est activée. Son activation déclenche la vérification de l'alignement chargé ou à charger. Dans le cas du chargement d'un bitexte, la Carte des Sections donnent à voir une bi-carte de sections.

Dictionnaire Source

Le bouton met au jour le dictionnaire du volet Source. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Dictionnaire Cible

Le bouton met au jour le dictionnaire du volet Cible. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Sélection de sections

Le bouton permet de sélectionner toutes les sections contenant simultanément les motifs cherchés dans le volet Source et dans le volet Cible.

Le bouton permet de sélectionner les sections Source associées à des sections Cibles contenant respectivement les motifs cherchés (Source et Cible).

Le bouton permet de sélectionner les sections Cible associées à des sections Source contenant respectivement les motifs cherchés (Source et Cible).

Le bouton permet de sélectionner toutes les sections contenant les motifs cherchés soit dans le volet Source soit dans le volet Cible (et pas dans les 2 volets simultanément).

Le bouton permet de sélectionner les sections Source contenant le motif cherché dans le volet Source et associées à des sections Cible ne contenant pas le motif cherché dans le volet Cible.

Le bouton permet de sélectionner les sections Cible contenant le motif cherché dans le volet Cible et associées à des sections Source ne contenant pas le motif cherché dans le volet Source.

Cooccurrents du pôle Source

Le bouton calcule le vocabulaire spécifique des sections sources contenant le pôle source préalablement recherché via la Carte des Sections. Ce calcul est réalisé en parallèle sur les sections cibles associées aux sections sources contenant le pôle source. Si un pôle source et un pôle cible sont fournis, le calcul met au jour un bi-graphe de cooccurrence. A l'issue du calcul, les cooccurrents mis au jour sont visibles en contexte. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Cooccurrents du pôle Cible

Le bouton calcule le vocabulaire spécifique des sections cibles contenant le pôle cible préalablement recherché via la Carte des Sections. Si un pôle source et un pôle cible sont fournis, le calcul met au jour un bi-graphe de cooccurrence. Ce calcul est réalisé en parallèle sur les sections sources associées aux sections cibles contenant le pôle cible. A l'issue du calcul, les cooccurrents mis au jour sont visibles en contexte. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Spécifs SOURCE*

Le bouton calcule le vocabulaire spécifique des sections sources sélectionnées (celles contenant un motif préalablement cherché par exemple). Ce calcul est réalisé en parallèle sur les sections sources et les sections miroirs cibles. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Spécifs CIBLE*

Le bouton calcule le vocabulaire spécifique des sections cibles sélectionnées (celles contenant un motif préalablement cherché par exemple). Ce calcul est réalisé en parallèle sur les sections cibles et les sections miroirs sources. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Bi-Concordance

Le bouton permet de mettre au jour les contextes alignés contenant soit le pôle source visé soit le pôle cible visé. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Le bouton permet de mettre au jour les contextes alignés contenant le pôle source visé ET le pôle cible visé. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Le bouton permet de mettre au jour les contextes alignés contenant le pôle source visé ET PAS le pôle cible visé. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Le bouton permet de mettre au jour les contextes alignés contenant soit le pôle cible visé ET PAS le pôle source visé. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Dépendance

Ce menu est accessible si la case à cocher : Dépendance est activée.

Nouvelles Annotations GOUV-REL-DEP

Le bouton créé 2 nouvelles annotations sur chaque item de la Trame à partir des annotations de dépendance associées à l'annotation visée Annotation Relation : .
La première fusionne le nom de la relation portée par l'item (RELATION) et le lemme du gouverneur associé (GOUV) sous la forme GOUV_RELATION.
La seconde fusionne le lemme du gouverneur visé par la dépendance porté par l'item (GOUV), le nom de la relation porté par l'item (RELATION) et le lemme de l'item portant l'annotation de dépendance (DEPENDANT) sous la forme GOUV_RELATION_DEPENDANT.

De même, le bouton créé 2 nouvelles annotations sur chaque item de la Trame à partir des annotations de dépendance associées à l'annotation visée Annotation Relation : .
La première fusionne le nom de la relation portée par l'item (RELATION) et la POS du gouverneur associé (GOUV) sous la forme GOUV_RELATION.
La seconde fusionne la POS du gouverneur visé par la dépendance porté par l'item (GOUV), le nom de la relation porté par l'item (RELATION) et la POS de l'item portant l'annotation de dépendance (DEPENDANT) sous la forme GOUV_RELATION_DEPENDANT.

Catégories connectées par une relation

Le bouton met au jour la liste des catégories connectées par la relation préalablement paramétrée dans les zones de saisies suivantes : Relation : Annotation Relation : . La première permet d'indiquer le nom de la relation visée, la seconde permet de spécifier le numéro d'annotation (>=3) portant ce type d'information (dans le corpus de test fourni plus haut, il s'agit de la couche n°4). La notation ANY permet de récupérer toutes les relations disponibles.
Le résultat apparaît sous la forme d'un tableau et d'un graphique synthétisant les relations entre POS sur la relation visée. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Recherche de relations entre lemmes (gouverneur-dépendant)

Le bouton met au jour la liste des lemmes connectés par la relation préalablement paramétrée dans les zones de saisies suivantes :

Relation : Annotation Relation : : la première permet d'indiquer le nom de la relation visée, la seconde permet de spécifier le numéro d'annotation (>=3) portant ce type d'information. La notation ANY permet de récupérer toutes les relations disponibles.

GOUV (lemme)  DEP (lemme¹/pos²) : les 2 zones précédentes permettent de filtrer le gouverneur et/ou le dépendant associé(s) à la relation précédente en indiquant les lemmes visés pour l'un et/ou l'autre. Si les zones de filtrage du gouverneur et du dépendant ne sont pas renseignées, tous les lemmes connectés sont affichés pour la relation visée.

Dans l'exemple donné ci-dessus, la requête exprimée permet de rechercher les OBJETS de "penser" (la relation OBJ étant portée dans l'annotation n°4).
Le résultat apparaît sous la forme d'un tableau contenant des informations sur les relations mises au jour et un accès aux relations en contexte (via une concordance).
Si la relation visée (pour un lemme gouverneur donné) est ANY, le résultat construit permet aussi (via un bouton visible au dessus du tableau des résultats) d'accéder à l'affichage des contextes caractéristiques du gouverneur visé : ces contextes donnent à voir des exemples prototypiques de structures dépendancielles associées à ce gouverneur.

Le bouton : opération similaire à la précédente mais le résultat apparaît aussi sous la forme d'un graphique mettant au jour les relations entre lemmes pour la relation visée. Le graphique produit (ou en cours de mise au jour) peut être supprimé via un clic sur

Le bouton déclenche une recherche similaire à la précédente (lemme→lemme), à la différence ici que le dépendant est décrit par une POS.

Sélection Relation

Le bouton permet d'ajouter au Gestionnaire de Sélection les gouverneurs et dépendants associés dans la relation décrite dans les zones de saisie suivantes : Relation : Annotation Relation : . La première permet d'indiquer le nom de la relation visée, la seconde permet de spécifier le numéro d'annotation (>=3) portant ce type d'information (dans le corpus de test fourni plus haut, il s'agit de la couche n°4).
Cette sélection peut ensuite être rendue visible en contexte en projetant la sélection induite sur la Carte des Sections.

Sélection

Carte Sections (Sélection)

Cette opération permet de projeter sur la Carte des Sections le contenu du Gestionnaire de Sélection.

Concordance (Sélection)

Cette opération permet de produire une concordance des éléments du Gestionnaire de Sélection.

Bi-concordance (Sélection)

Si un bitexte est chargé. Cette opération permet de produire une bi-concordance des éléments du Gestionnaire de Sélection : cette biconcordance met au jour les sections alignées contenant au moins une sélection (en source ou en cible)

Bi-concordance (Sélection)

Si un bitexte est chargé. Cette opération permet de produire une bi-concordance des éléments du Gestionnaire de Sélection : cette biconcordance met au jour les sections alignées contenant au moins une sélection (en source ET en cible)

Bi-concordance Source (Sélection)

Si un bitexte est chargé. Cette opération permet de produire une bi-concordance des éléments du Gestionnaire de Sélection : cette biconcordance met au jour les sections alignées contenant au moins une sélection (en source ET pas en cible)

Bi-concordance Cible (Sélection)

Si un bitexte est chargé. Cette opération permet de produire une bi-concordance des éléments du Gestionnaire de Sélection : cette biconcordance met au jour les sections alignées contenant au moins une sélection (en cible ET pas en source)

Supprimer sélections

Ce bouton permet de vider le Gestionnaire de Sélection.

Export

Sauvegarde Base

Le bouton permet de sauvegarder localement la base chargée dans un fichier au format txt brut (encodé en utf-8) ; ce fichier contient La Trame et Le Cadre. Il peut être corrigé et enrichi (ajout d'annotations par exemple) puis réimporté dans le logiciel. Son format de description de La Trame et du Cadre est similaire au format des bases présentées supra.

Etiquetage via treetagger d'une Base exportée

L'archive suivante base-iTrameur2treetagger contient des ressources pour annoter via treetagger un fichier initialement chargé dans iTrameur puis exporté : le fichier exporté est étiqueté puis reformaté pour intégrer les annotations produites par treetagger.

Paramétrage

Délimiteur de contexte : Cette zone de saisie doit contenir le caractère utilisé pour la construction de la Carte des Sections (et aussi pour déterminer les contextes utilisés pour le calcul des cooccurrents via la Carte des Sections).

Délimiteur(s) : Cette zone de saisie contient la liste des caractères délimiteurs utilisés pour segmenter le texte en formes graphiques.

Bi-Texte : Cette case à cocher permet de charger un bi-texte aligné (et les fonctionnalités associées).

Dépendance : Cette case à cocher permet de charger les fonctionnalités associées aux traitements sur une base contenant des annotations en dépendance.

Partition : Liste permettant de sélectionner une partition.

Partie : Liste permettant de sélectionner une partie de le partition choisie.

Annotation : Cette liste, mise à jour à l'issue du chargement d'une base annotée, permet de sélectionner une annotation pour réaliser le calcul visé.

Annotation Sortie : Cette liste, mise à jour à l'issue du chargement d'une base annotée, permet de sélectionner l'annotation à utiliser pour afficher les zones textuelles (concordance, section, contexte cooccurentielle) quelle que soit l'annotation utilisée. Par exemple : concordance du pôle NOM (annotation n°3) et affichage en sortie via les formes graphiques (annotation n°1) des contextes visés. Par défaut l'annotation en sortie a la même valeur que l'annotation sélectionnée pour les calculs.

Seuil : Par défaut, l'indice de spécificité est calculé avec un seuil de probabilité fixé à 5 %.

Co-Freq : Par défaut, le calcul de cooccurrence est calculé en ne retenant que les candidats cooccurrents dont la co-fréquence est supérieure à la valeur donnée.

IndSpMin : Par défaut, le calcul de cooccurrence est calculé en ne retenant que les candidats cooccurrents dont l'indice de spécificité est supérieur à la valeur donnée.

FQ MAX : Par défaut, le calcul des spécificités totales est calculé en ne retenant que les formes dont la fréquence est supérieure à la valeur donnée. Idem pour le calcul du "Réseau de cooccurrents".

LG Contexte : Longueur du contexte pour l'affichage d'une concordance.

Graphe H : Par défaut, les graphiques construits ont une hauteur correspondant à la valeur donnée.

Graphe L : Par défaut, les graphiques construits ont une largeur correspondant à la valeur donnée.

Pôle : Zone de saisie utilisée pour définir le pôle visé (remplissage par auto-complétion).

NB sélection section : Zone de saisie permettant de définir le nombre de sections à sélectionner simultanément (via le clic-droit).

Relation : Zone de saisie permettant de saisir le nom d'une relation.

Annotation relation : Zone de saisie permettant le numéro d'annotation portant le nom de la relation visée.

Partition	Parties	Lg Contexte	Fq Max
Graphe H	Seuil	Co-Freq	IndSPmin
Graphe L	SR LGmax	SR FQMin	NB sélection section
Annotation*	Annotation sortie	Relation	Annotation Relation
Pôle Source Pôle cible

Position	Type	FORME	POS	LEMME	ETC.
1	forme	une	DET	un	...
2	delim		DELIM	DELIM	...
3	forme	base	NOM	base	...
4	delim		DELIM	DELIM	...
5	forme	textométrique	ADJ	textométrique	...
6	...	...	...	...	...

Paramètres

Création d'une nouvelle base / Importation d'une base

Opérations sur la Trame

Opérations sur le Cadre

Opérations sur les Segments Répétés

Opérations sur les Patrons

Opérations sur la Carte des Sections

Calcul de cooccurrents

Opérations sur un Bitexte

Opérations sur les relations de dépendances

Gestionnaire de sélection

Sauvegarde Base

Le Trameur / iTrameur aka Le Métier Textométrique

Autres Développements en cours

Lectures

Format d'entrée (Nouvelle base)

Découpage en sections

Découpage en parties

Exemples de corpus de travail

Bi-textes alignés

Exemples de corpus aligné

Format d'entrée (Base annotée)

Exemples de bases annotées

Annotation de données

Chargement d'un fichier (Nouvelle base)

Comment annoter une base après son chargement ?

Etiquetage via treetagger d'une Base exportée

Importer une base annotée

Visualisation des annotations

Trame

Dictionnaire

Concordance

Accroissement Vocabulaire

Fusion d'annotation

Cadre (système de parties)

Cadre

Parties

Ventilation (parties)

PCLC

Spécificités d'une partie

Spécificités totales

Les mots spécifiques(+) d'une partition

Barycentre temporel / Coefficient Von Neumann

Croisement de partitions

SR/Patron

Segments répétés

Carte Sections(SR)

Ventilation(SR)

Concordance(SR)

Patron

Extraction Patron

Graphique Patron

Sélection Patron

Concordance Patron

Carte Sections (Sél. Patron)

Section

Carte des sections

Ventilation (sections)

Sélection de sections

Vocabulaire spécifique d'une sélection de sections

Les cooccurrents d'une forme pôle

Spécificités totales

Coocs

Calcul de cooccurrents

Calcul de cooccurrents sur une partie

Réseau de cooccurrents

Réseau de cooccurrents sur une partie

Calcul de cooccurrents / stopliste

Bitexte

Dictionnaire Source

Dictionnaire Cible

Sélection de sections

Cooccurrents du pôle Source

Cooccurrents du pôle Cible

Spécifs SOURCE*

Spécifs CIBLE*

Bi-Concordance

Dépendance

Nouvelles Annotations GOUV-REL-DEP

Catégories connectées par une relation