LE TRAMEUR

Le Trameur est

Programme de génération puis de gestion de la Trame et du Cadre d’un texte (i.e découpage en unité et partitionnement du texte : le métier textométrique) pour des opérations textométriques (ventilation des unités, carte des sections, cooccurrence, spécificité, AFC...). (Serge FLEURY)

Dans cette partie, nous nous servons du Trameur pour faire une exploration textométique de nos corpus ; d’ailleurs, certaines sont réalisées à l’aide de iTrameur, version en ligne.

Le détail d’analyses est intégré dans la partie RÉSULTATS pour que notre étude soit structurée et complète.

Le travail sur chaque langue est organisée par l’ordre suivant :

Principes caractérisques lexicométriques de corpus :

Nombre d’items
Nombre d’occurences de formes
Nombre de formes
Nombre d’hapax
etc;

Examen de formes-lemmes et de catégories grammaticales (par idems et par segments)

Les segments nous permettent de récupérer des ngrams pertinents, notamment des entités nommées, des mots polylexicaux, des mots composés sans délimiteur (trait d’union, apostrophe), ou bien des notions importantes.

Ventilation

La ventilation nous permet d’examiner par diagramme des répartition de certaines unités dans son ensemble. Nous pouvons l’utiliser pour une comparaison non seulement entre les trois corpus, mais aussi entre les parties d’un corpus.

Concordance

La concordance sert à trouver les contextes immédiats (à gauche et à droite) d’un pôle (ceci peut être une forme, un lemme, une catégorie,etc). Nous nous en servons pour confirmer (plutôt pour infirmer) certaines observations.

Cooccurrence et poly-cooccurrence des pôles

La concordance n’est pas toujours suffisant car les textes sont organisés linéaires. Nous ne voyons que les contextes immédiats d’un certain motif. Par contre, la (poly-)cooccurrence permet de l’examiner dans son environnement, un sens plus large.

Principes caractérisques lexicométriques de corpus

FRANÇAIS

tram_carac_fr

ANGLAIS

Avant de charger un corpus d’anglais dans le Trameur, il est impératif pour nous de transcoder le corpus en iso-8859-1 pour qu’il soit correctement traité avec le tree-tagger.

tram_carac_fr

CHINOIS

Le module tree-tagger dans le Trameur ne dispose pas de traitement pour le chinois. Nous avons cependant tenté le jeu d’étiquettes français. Au pire, ce dernier ne marche pas, car il ne pose aucune influence sur les formes, et les lemmes chinois sont identiques que leur forme.

tram_carac_fr

Examen de formes-lemmes et de catégories grammaticales (par idems et par segments)

FRANÇAIS

Issus de sources variées, certains mots, notamment des entités nommées, ne sont pas homogènes. De plus, nous ne pouvons non plus les contrôler dans la phase de prétraitement de corpus. Grâce à une fonctionnalité dans le Trameur, nous pouvons les modifier à la main pour que le résultat soit plus pertinent. Voir un exemple ci-dessous :

tram_lm_fr_1

Lemmes et formes (par idems et par segments)

Les images infra montrent une partie des entités nommés et des notions importantes que récupèrent la rubrique Segment, et qui sont liées à notre sujet de recherche. Nous nous en inspirons pour les prochaines étapes du travail.

tram_lm_fr_2

tram_lm_fr_3

tram_lm_fr_4

tram_lm_fr_5

tram_lm_fr_6

tram_lm_fr_7

tram_lm_fr_8

tram_lm_fr_9

tram_lm_fr_10

tram_lm_fr_11

Catégories Grammaticales

Dans le corpus français, les verbes sont moins fréquents que les substantifs, selon les images infra.

Le jeu d’étiquettes français complet est disponible sur le site du tree-tagger.

tram_cat_fr_1

tram_cat_fr_2

ANGLAIS

En nous inspirant des résultats obtenus du corpus français, nous adoptons la même démarche, à savoir examiner des segments de lemmes et de catégories.

Lemmes et formes (par idems et par segments)

tram_lm_en_1

tram_lm_en_2

tram_lm_en_3

tram_lm_en_4

l’image infra démontre le « danger » de tree-tagger : sur-lemmatiser. La notion machine learning (apprentissage automatique) devient machine learn .

tram_lm_en_5

Catégories Grammaticales

L’image ci-dessous montre une partition faible des syntagmes verbaux.

tram_cat_en_1

CHINOIS

Etant donné le résulat satisfaisant de la segmentation de textes chinois que nous avons réalisée dans la phase prétraitement, nous pouvons nous concenter sur des segments venant du Trameur.

Lemmes et formes (par segments)

tram_lm_cn_1

tram_lm_cn_2

tram_lm_cn_3

tram_lm_cn_4

tram_lm_cn_5

Catégories Grammaticales

En vue, les verbes représentent une proportion importante selon les deux images ci-dessous, et il semble que cette partition soit juste pour la langue chinoise. Est-ce vraiment le cas dans notre corpus? Les prochaines étapes désapprouvent cette constatation.

tram_cat_cn_1

tram_cat_cn_2

Ventilation

Nous montrons deux directions possibles dans cette partie : une sur un seul pôle, et une autre sur plusieurs.

Nous commençons par notre motif. Ensuite nous examinons des entités nommées (noms d’entreprise technologique par exemple). Nous terminons par une comparaison de syntagmes verbaux.

Certaines démarches sont réalisées par iTrameur à cause de la performance de nos machines.

FRANÇAIS

tram_vent_fr_1

tram_vent_fr_2

tram_vent_fr_3

tram_vent_fr_4

ANGLAIS

tram_vent_en_1

tram_vent_en_2

tram_vent_en_3

tram_vent_en_4

CHINOIS

tram_vent_cn_1

tram_vent_cn_2

Concordance

Nous craignions que la proportion importante d’occurrences des verbes n’ait été un résultat de bruits dans le corpus chinois. La rubrique Concordance nous permet d’infirmer cette surreprésentation : l’étiquetage n’est pas bon. Nous rejetons l’analyse des catégories gramaticales du corpus chinois.

CHINOIS

tram_conc_cn

Cooccurrence et Poly-Cooccurrence

Dans cette partie, nous montrons la cooccurrence et la poly-cooccurrence de notre motif, deux entités nommées (nom d’entreprise, et nom de personne), ainsi que le mot « robot » qui a aussi une fréquence significative dans nos corpus. De plus, une tentative préliminaire nous montre qu’il existe encore de nombreux bruits à nettoyer, malgré nos travaux dans la phase de prétraitement. Il y a tout de même un remède : augmenter la taille de nos antidictionnaires bien qu’il ait de perte d’informations éventuelle. Nous nous rebattrons sur cette méthode (mais non abus).

Concernant le motif en anglais et en français, qui comporte deux mots, nous adoptons deux moyens :

grâce à la rubrique Segment, le motif est récupéré sous forme de 2gram, qui peut nous servir directement ; ou
nous pouvons tout d’abord trouver la cooccurrence du lemme « intelligcence » et ensuite utiliser sa cooccurrence de lemme « artificiel » (artificial en anglais) pour calculer la poly-cooccurrence.

Il s’agit d’un jeu délicat en ce qui concerne la deuxième méthode, car « intelligence » et « artificiel » cooccurées ne veulent pas dire que ces deux lemmes soient collés. Le résultat des calculs serait différent selon ces deux schémas.