iTrameur Analyse textométrique de données


Paramètres

Partition Parties Annotations* Lg Contexte 
Seuil Co-Freq IndSPmin Fq Max 
SR LGmax SR FQMin Graphe H Graphe L 
Relation n°Annot. Relation 
Pôle Source 
 

Création d'une nouvelle base / Importation d'une base


1. Créer une base
1. Importer une base
2. Délimiteur de contexte (si cette zone est vide, contexte=ligne)
3. Délimiteur(s)
4. Bi-texte (chargement d'un bitexte aligné cf Aide)
5. Dépendance (chargement d'une base avec annotations en dépendance cf Aide)

Opérations sur la Trame


Annotations à fusionner 


Opérations sur le Cadre




Opérations sur les Segments Répétés


SR 
 




Opérations sur les Patrons


Annotation patron  Patron  Annotation terme 


Opérations sur la Carte des Sections





Calcul de cooccurrents


NB terme gauche  NB terme droite 


Gestionnaire de sélection




iTrameur

Cette application met en oeuvre des fonctionnalités disponibles dans Le Trameur ; elle regroupe par ailleurs des modules déjà disponibles en ligne :

iTrameur-Specif-Partie : les mots spécifiques d'une partie d'un corpus ; navigation via la carte des sections ;

iTrameur-CooCs-Bitext : les cooccurrents d'un pôle sur un corpus aligné (avec retour en contexte); navigation via la carte des sections alignées ;

iTrameur-CooCs : un graphe de cooccurrents sur un pôle donné (avec retour en contexte); navigation via la carte des sections ;

iTrameur-CooCs-regexp : un graphe de cooccurrents sur un ensemble de pôles définis via une regexp ; navigation via la carte des sections ;

iTrameur-Réseau CooCs : un réseau de cooccurrences généralisées.


Format d'entrée (nouvelle base)


Découpage en sections

Les textes pris en charge par cette application doivent être au format TXT BRUT et encodés en UTF-8.

Ces textes doivent a priori être préparés en amont pour y introduire des caractères permettant de mettre au jour des sections dans le texte.
Ce découpage peut mettre au jour une segmentation du texte en phrases, en paragraphes ou en parties par exemple.
Illustration sur ce fichier : Le Dormeur du val ; ici le caractère § met au jour une segmentation du texte en "ligne".

Découpage en parties

Ces textes peuvent aussi être préparés en amont pour y introduire des jalons textuels (des balises) permettant de mettre au jour des partitions dans le texte.
Illustration sur ces fichiers :

  • Le Dormeur du val (balisage "étendu" : chaque partie est encadrée par une balise ouvrante et une balise fermante)
  • Le Dormeur du val (balisage xml : le document est un arbre d'éléments)

Le balisage d'une partition se fait en introduisant pour chaque partie :

  1. une balise d'ouverture que l'on peut écrire de la manière suivante <partie> ou comme ceci <partie="valeur"> ou aussi <partie attribut="valeur">
  2. et une balise de fermeture : </partie> (dans tous les cas...)

Exemple de corpus de travail :

Bi-textes alignés

Il est possible de charger un bitexte avec 2 volets alignés : balisage pour le marquage des volets et marquage de sections alignées par un caractère délimiteur.

Exemple de corpus de travail :


Format d'entrée (base annotée)


Une base textométrique annotée est un fichier contenant une segmentation (Trame, cf documentation Le Trameur) et un système de parties (Cadre, idem).

Ces informations sont intégrées dans un fichier tabulé :

1. La première partie du fichier contient une description de la segmentation en mots avec un mot par ligne. Chaque colonne décrit les informations associées à cette forme graphique sous la forme suivante :

position type forme lemme catégorie annot4 annot5 etc.

Par exemple :
1 forme une un DET
2 delim   DELIM DELIM
3 forme base base NOM
4 delim   DELIM DELIM
5 forme textométrique textométrique ADJ
etc.
(Remarque : dans les lignes 2 et 4 le caractère "espace" est présent entre le type delim et le lemme DELIM)
Une tabulation sépare chaque élément décrivant le mot visé.

Les annotations sur chaque mot peuvent être soit des valeurs associées au mot pour l'annotation visée soit des annotations marquant une relation entre 2 items de la Trame. C'est le cas des annotations de dépendance syntaxique (cf corpus de test infra).
Les annotations en dépendance sont notées ainsi : RELATION(i) est portée par le dépendant, RELATION est le nom de la relation de dépendance (SUB, OBJ par exemple) et i est la position du gouverneur sur le Trame (cf documentation Le Trameur).

2. La seconde partie du fichier contient une description des systèmes de parties définies sur la segmentation en mots : une partie par ligne, chaque colonne décrit les informations associées à cette partie sous la forme suivante :

PARTITION:nom PARTIE:valeur DEBUT:positiondebut FIN:positionfin

Exemple de bases annotées :


Chargement d'un fichier


Le bouton permet de charger le fichier visé.
Avant l'ouverture de ce fichier, il faut au préalable :

  1. choisir les caractères délimiteurs utilisés pour segmenter le texte en mots ;
  2. choisir le caractère délimiteur de sections qui sera utilisé à l'issue du chargement pour construire la représentation du texte sous la forme d'une Carte des sections (cf documentation Le Trameur).
Il sera ensuite possible de modifier cette représentation en sélectionnant un autre délimiteur de sections.

Pour tenir compte d'un bitexte aligné dès le chargement, il convient au préalable de cocher la case idoine avant de sélectionner le fichier : 4. Bi-texte : .


Importation d'une base annotée


Le bouton permet de charger la base visée.

Le nombre d'annotations disponible après chargement est visible via la liste Annotations. Les calculs présentés infra sont accessibles sur le niveau d'annotation sélectionné au préalable.

Si la base annotée contient un bitexte aligné, il convient de cocher la case idoine avant de sélectionner le fichier.

Si la base annotée contient des annotations en dépendance, il convient de cocher la case idoine pour charger les fonctionnalités associées aux traitements de ces dépendances : 5. Dépendance : .

Visualisation des annotations

Dès qu'une base annotée est chargée, toutes les zones d'édition de l'application (concordance, section etc.) permettent de visualiser les annotations de chaque item de la Trame (les mots) : il suffit de passer le pointeur de la souris sur le mot visé (cf Le Trameur).


Trame


Dictionnaire

Pour visualiser le dictionnaire de toutes les formes graphiques (annotation n°1) issues de la segmentation réalisée après le chargement du fichier visé, appuyez sur la bouton . Même chose sur les autres niveaux d'annotation (2 : lemme ; 3 : catégorie).
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.

Concordance

Le bouton permet de mettre au jour une concordance du Pôle sélectionné. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Il est possible de réaliser une concordance de plusieurs items simultanément : il suffit de saisir le nom de chacun des items dans la zone de saisie Pôle en les séparant par un espace.

Si une base annotée en dépendance est chargée, il est possible de visualiser en contexte une relation de dépendance associée au pôle visé (le pôle étant le gouverneur dans cette relation) : par exemple, si on calcule une concordance du lemme "penser" et si on complète le paramétrage de manière suivante : Relation :  n°Annot. Relation , la concordance construite mettra au jour la relation de dépendance OBJ, cette relation étant associée au niveau d'annotation n°4 (i.e les objets de "penser").

Fusion d'annotation

Sur une base chargée comportant au moins 3 annotations (forme, lemme, categorie), il est possible de créer une nouvelle couche d'annotation par fusion de 2 annotations existantes. Le bouton réalise cette fusion à partir des numéros d'annotation renseignés dans la zone de saisie Annotations à fusionner  : dans la valeur donnée par défaut ce sont annotations n°2 et n°3 qui seraient fusionnées. Le résultat final est la concaténation sur chaque item des valeurs des annotations visées pour cet item sous la forme suivante : annot2_annot3 (pour la valeur par défaut).


Cadre (système de parties)


Cadre

Le bouton donne à voir sous la forme d'un tableau les différents systèmes de parties repérées et les positions de chacune sur la Trame.
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.

Ventilation (parties)

Pour visualiser la ventilation d'un mot dans le corpus sur une partition donnée via un graphique de ventilation, il faut renseigner la zone de saisie Pôle , sélectionner une partition dans la zone Partition puis appuyer sur la bouton . Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Le résultat donne à voir 2 graphiques :

  1. une ventilation en fréquence absolue sur la partition choisie ;
  2. une ventilation en spécificité sur cette même partition.

Il est possible de réaliser ce genre de graphique pour plusieurs items simultanément : il suffit de saisir le nom de chacun des items dans la zone de saisie Pôle en les séparant par un espace.

PCLC

Le bouton donne à voir sous la forme d'un tableau les Principale Caractéristiques Lexicométriques de la partition sélectionnée.
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.

Spécificités d'une partie

Le bouton donne à voir sous la forme d'un tableau le vocabulaire spécifique de la partie choisie dans la partition sélectionnée.
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Spécificités totales

Le bouton permet de mettre au jour un tableau donnant à voir pour tous les mots de fréquence supérieure à la valeur FQ MAX leur fréquence et leur indice de spécificité sur toutes les parties induites par la partition sélectionnée. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.

Les mots spécifiques(+) d'une partition

Le bouton permet de mettre au jour un tableau donnant à voir les mots de spécificités positives sur une partition donnée.
Ce calcul intègre les mots dont la fréquence est supérieure à la valeur FQ MAX et dont l'indice de spécificité, dans la partie visée de la partitition sélectionnée Partition, est supérieur à la valeur IndSPmin.


SR/Patron


Segments répétés

Le bouton lance le calcul des segments répétés (dont le paramétrage par défaut est : SR LGmax : 12 SR FQMin : 10). Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.
Remarque : une fois les segments répétés mis au jour par ce calcul, tous les segments sont visualisables en contexte dans chaque section éditée par un soulignement de chaque segment.

Carte Sections(SR)

Le bouton permet de réaliser la projection sur la Carte des Sections du segment répété fourni dans la zone de saisie : SR 

Ventilation(SR)

Le bouton permet de produire la ventilation sur la partition sélectionnée du segment répété fourni dans la zone de saisie : SR 

Concordance(SR)

Le bouton permet de construire la concordance du segment répété fourni dans la zone de saisie : SR 

Patron


Extraction Patron

Sur une base chargée comportant au moins 3 annotations (forme, lemme, categorie), il est possible de d'extraire des patrons sur une couche d'annotation donnée pour produire la liste des termes associés. Le bouton réalise cette extraction à partir du numéro d'annotation utilisé pour identifier le patron : Annotation patron , du patron visé : Patron  (le patron comporte des éléments séparés par un espace) et de l'annotation visée pour les termes à produire : Annotation terme .
Dans les valeurs données ici par défaut, on extrait le patron NOM ADJ, annotation n°3 i.e la catégorie, et on produit la liste des termes associés pour l'annotation n°1 i.e les formes graphiques.
IMPORTANT : On dispose d'un JOKER dans l'écriture d'un patron : le patron NOM ANY permet ainsi de récupérer toutes les séquences composées d'un nom suivi par n'importe quelle catégorie.

Sélection Patron

Opération similaire à la précédente, mais dans ce cas les termes résultants ne sont pas affichés en sortie mais ajoutés au Gestionnaire de Sélection ; ils seront visualisables en contexte, par exemple, au moment de l'affichage d'une section, ils seront mis au jour sur un fond de couleur orangée.

Concordance Patron

Opération quasi similaire à l'extraction, mais dans ce cas les termes résultants sont affichés en contexte dans un concordancier.

Carte Sections (Sél. Patron)

Cette opération permet de projeter sur la Carte des Sections le patron préalablement sélectionné par l'opération "Sélection Patron". Il peut être nécessaire de vider le Gestionnaire de Sélection avant de lancer cette opération pour ne garder que le dernier patron sélectionné dans le Gestionnaire de Sélection.


Section


Carte des sections

A l'issue du chargement du fichier, le texte est représenté sous la forme d'une carte des sections (cf documentation Le Trameur).

Pour visualiser une section, un clic sur la section visée déclenche l'édition de la section au dessous de la carte.

Pour visualiser la ventilation d'un mot dans le corpus via cette carte, il faut renseigner la zone de saisie Pôle puis appuyer sur "entrée" ou sur la bouton .

Il est possible de réaliser la visualisation dans la carte pour plusieurs items simultanément : il suffit de saisir le nom de chacun des items dans la zone de saisie Pôle en les séparant par un espace.

Ventilation (sections)

Pour visualiser la ventilation d'un mot dans le corpus (sur la partition induite par le découpage en sections) via un graphique de ventilation, il faut renseigner la zone de saisie Pôle puis appuyer sur la bouton . Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Le résultat donne à voir 2 graphiques :

  1. une ventilation en fréquence absolue sur la partition induite par le découpage en sections réalisé préalablement ;
  2. une ventilation en spécificité sur cette même partition.

Vocabulaire spécifique d'une sélection de sections

Pour calculer le vocabulaire spécifique d'une sélection de sections, il faut commencer par sélectionner les sections visées (clic-droit sur chaque section : le contour devient bleu), puis activer le bouton . Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.

Remarque : dès qu'une forme est recherchée dans la carte des sections, les sections concernées sont automatiquement sélectionnées.

Les cooccurrents d'une forme pôle

Pour calculer les cooccurrents d'une forme pôle donnée, il faut renseigner la zone de saisie Pôle puis appuyer sur la bouton . Ce calcul de cooccurrence s'appuie sur les contextes induits par la Carte de sections construite préalablement. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Spécificités totales

Une fois chargée la carte des sections (i.e mise en jour implicite d'une partition en sections), le bouton permet de mettre au jour un tableau donnant à voir pour tous les mots de fréquence supérieure à la valeur FQ MAX leur fréquence et leur indice de spécificité sur toutes les parties induites par cette partition (le découpage en sections). Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur



Coocs


Calcul de cooccurrents

Le bouton calcule les cooccurrents du pôle source dans une fenêtre contextuelle autour du pôle source, contenant le nombre de mots à gauche défini par la zone saisie : Nb Terme Gauche :  idem pour le nombre de mots à droite avec : Nb Terme Droite : . Le calcul met au jour un bi-graphe de cooccurrence. Les cooccurrents mis au jour sont visibles en contexte.

Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.



Bitexte


Ce menu est accessible si la case à cocher : Bi-texte  est activée. Son activation déclenche la vérification de l'alignement chargé ou à charger. Dans le cas du chargement d'un bitexte, la Carte des Sections donnent à voir une bi-carte de sections.

Dictionnaire Source

Le bouton met au jour le dictionnaire du volet Source. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Dictionnaire Cible

Le bouton met au jour le dictionnaire du volet Cible. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Cooccurrents du pôle Source

Le bouton calcule le vocabulaire spécifique des sections sources contenant le pôle source préalablement recherché via la Carte des Sections. Ce calcul est réalisé en parallèle sur les sections cibles associées aux sections sources contenant le pôle source. Si un pôle source et un pôle cible sont fournis, le calcul met au jour un bi-graphe de cooccurrence. A l'issue du calcul, les cooccurrents mis au jour sont visibles en contexte. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Cooccurrents du pôle Cible

Le bouton calcule le vocabulaire spécifique des sections cibles contenant le pôle cible préalablement recherché via la Carte des Sections. Si un pôle source et un pôle cible sont fournis, le calcul met au jour un bi-graphe de cooccurrence. Ce calcul est réalisé en parallèle sur les sections sources associées aux sections cibles contenant le pôle cible. A l'issue du calcul, les cooccurrents mis au jour sont visibles en contexte. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.

Bi-Concordance

Le bouton permet de mettre au jour les contextes alignés contenant soit le pôle source visé soit le pôle cible visé. Le calcul est réalisé sur le niveau d'annotation sélectionné au préalable.
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.


Dépendance


Ce menu est accessible si la case à cocher : Dépendance  est activée.

Catégories connectées par une relation

Le bouton met au jour la liste des catégories connectées par la relation préalablement paramétrée dans les zones de saisies suivantes : Relation :  n°Annot. Relation : . La première permet d'indiquer le nom de la relation visée, la seconde permet de spécifier le numéro d'annotation (>=3) portant ce type d'information (dans le corpus de test fourni plus haut, il s'agit de la couche n°4).
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.

Recherche de relations entre lemmes (gouverneur-dépendant)

Le bouton met au jour la liste des lemmes connectés par la relation préalablement paramétrée dans les zones de saisies suivantes :

Relation :  n°Annot. Relation : : la première permet d'indiquer le nom de la relation visée, la seconde permet de spécifier le numéro d'annotation (>=3) portant ce type d'information ;

GOUV (lemme)  DEP (lemme)  : les 2 zones précédentes permettent de filtrer le gouverneur et/ou le dépendant associé(s) à la relation précédente en indiquant les lemmes visés pour l'un et/ou l'autre.

Dans l'exemple donné ci-dessus, la requête exprimée permet de rechercher les OBJETS de "penser" (la relation OBJ étant portée dans l'annotation n°4).
Le résultat apparaît sous la forme d'un tableau dans une nouvelle page du navigateur.

Sélection Relation

Le bouton permet d'ajouter au Gestionnaire de Sélection les gouverneurs et dépendants associés dans la relation décrite dans les zones de saisie suivantes : Relation :  n°Annot. Relation : . La première permet d'indiquer le nom de la relation visée, la seconde permet de spécifier le numéro d'annotation (>=3) portant ce type d'information (dans le corpus de test fourni plus haut, il s'agit de la couche n°4).
Cette sélection peut ensuite être rendue visible en contexte en projetant la sélection induite sur la Carte des Sections.


Sélection


Carte Sections (Sélection)

Cette opération permet de projeter sur la Carte des Sections le contenu du Gestionnaire de Sélection.

Concordance (Sélection)

Cette opération permet de produire une concordance des éléments du Gestionnaire de Sélection.

Supprimer sélections

Ce bouton permet de vider le Gestionnaire de Sélection.


Paramétrage


Choisir un délimiteur de contexte (ou de partie) : Cette zone de saisie doit contenir le caractère utilisé pour la construction de la Carte des Sections (et aussi pour déterminer les contextes utilisés pour le calcul des cooccurrents).

Délimiteur(s) : Cette zone de saisie contient la liste des caractères délimiteurs utilisés pour segmenter le texte en formes graphiques.

Bi-Texte : Cette case à cocher permet de charger un bi-texte aligné (et les fonctionnalités associées).

Dépendance : Cette case à cocher permet de charger les fonctionnalités associées aux traitements sur une base contenant des annotations en dépendance.

Partition : Liste permettant de sélectionner une partition.

Partie : Liste permettant de sélectionner une partie de le partition choisie.

Annotations : Cette liste mise à jour à l'issue du chargement d'une base annotée permet de sélectionner une annotation pour réaliser le calcul visé.

Seuil : Par défaut, l'indice de spécificité est calculé avec un seuil de probabilité fixé à 5 %.

Co-Freq : Par défaut, le calcul de cooccurrence est calculé en ne retenant que les candidats cooccurrents dont la co-fréquence est supérieure à la valeur donnée.

IndSpMin : Par défaut, le calcul de cooccurrence est calculé en ne retenant que les candidats cooccurrents dont l'indice de spécificité est supérieur à la valeur donnée.

FQ MAX : Par défaut, le calcul des spécificités totales est calculé en ne retenant que les formes dont la fréquence est supérieure à la valeur donnée.

LG Contexte : Longueur du contexte pour l'affichage d'une concordance.

Graphe H : Par défaut, les graphiques construits ont une hauteur correspondant à la valeur donnée.

Graphe L : Par défaut, les graphiques construits ont une largeur correspondant à la valeur donnée.

Pôle : Zone de saisie utilisée pour définir le pôle visé (remplissage par auto-complétion).