ANALYSE DE SITE
TRAITEMENT AUTOMATIQUE DE CORPUS




Ce travail d'analyse de site Web a été réalisé à partir de la page du site
http://le-village.ifrance.com/bastruc/chen.htm



A partir d'un processus de "copier-coller" (l'aspiration à l'aide de l'outil "HttRack 2.02" et sa normalisation via MkCorpus (outil de manipulation de corpus, développé par Serge Fleury) ne s'avérant pas nécessaire), un corpus au format texte a été utilisé afin d'effectuer cette recherche lexicométrique et lexicologique.
Nous nous attacherons à étudier les noms propres qui font référence à Ernesto Guevara tout au long de sa biographie.


Description du site et de la page



Il s'agit d'une page extraite du site officiel (mais hébergée en tant que page personnelle sur I-France) d'une équipe de rugby guateloupéenne :
Basse-Terre Rugby Union des Clubs (d'où l'adresse de la page : "bastruc's")
La page sélectionnée est consacrée à la biographie d'Ernesto Guevara et présente la vie de ce personnage en quatre paragraphes :
Le premier paragraphe, intitulé "Le Che et le rugby", introduit le personnage principal dans une thématique sportive, et plus spécifiquement se rapportant au rugby.
Le second paragraphe, ayant pour titre "L'homme", relate la vie d'Ernesto Guevara de 1928 (naissance) à 1959 (second mariage).
Le troisième paragraphe traite de l'aspect "L'homme politique", de 1959 (proclamation de sa citoyenneté cubaine) à 1965 (lecture publique de sa lettre d'adieu au peuple cubain).
Le dernier paragraphe, nommé "Le guerillero", effectue un retour dans le temps en 1955 et se clôt par l'hommage post-mortem de Fidel Castro envers Ernesto Guevara en 1967.
La même photographie de l'équipe de rugby encensée par ce site compose le fond de cette page, et quelques images (photographies) illustrent le premier paragraphe.
Les caractères sont en noir, quelques syntagmes sont mis en valeur avec la typographie italique ou le gras.
Un bandeau publicitaire coloré et dynamique apparaît en bas de page.

A partir de ces données, nous allons évaluer quelles sont les spécifités de chaque partie, notamment au niveau des ressources lexicologiques.

Afin de mener à bien cette étude, nous utiliserons des outils de traitement automatique de corpus :

Lexico3, un logiciel créé par l'équipe du SYLED de l'Université Paris III-La Sorbonne Nouvelle, qui recense les principales caractéristiques lexicométriques et statistiques des textes : toutes les occurrences, le nombre total de formes, les contextes d'apparition de celles-ci, les segments répétés et collocations (lexèmes qui apparaissent dans la même fenêtre à la même position relative), mais aussi des statistiques d'estimation d'apparition. Or le corpus a besoin de subir quelques manipulations afin de répondre aux exigences de cet outil :
les sauts de lignes et retours-chariot ont été remplacés par le signe $ ; des balises qui partitionnent ce texte ont été adjointes : elles sont de la forme <par=arugby> pour le premier paragraphe, <par=bhomme> pour le second, <par=chommepolitique> pour le troisième, et enfin <par=dguerillero> pour le dernier. Nous pouvons donc traiter individuellement chaque paragraphe dans les calculs, mais aussi les comparer entre eux, grâce à la rubrique "spécificités par parties".

Tropes (version de démonstration 5.000, build0.069), un logiciel développé par le groupe de recherches "
Acetic", permet l'élaboration de groupes thématiques relatifs aux lexèmes des corpus, mais aussi une analyse basée sur une généralisation des données afin d'établir le mode d'énonciation du texte, et quelques spécificités sémantiques et discursives, via l'analyse des formes verbales, adjectivales, pronominales, mais aussi les différentes modalisations (adverbes et locutions adverbiales) et joncteurs (conjonctions de coordination et de subordination).

des programmes perl élaborés dans le cadre d'un dossier sur le traitement de données textuelles informatisées.


Statistiques lexicométriques


Lexico3 nous informe que ce corpus comprend en tout 3573 occurrences, 1501 formes (en comptabilisant la ponctuation) et 1089 hapax (lexèmes qui apparaissent une seule fois dans tout le corpus).
La constitution d'un
dictionnaire par Lexico3 permet de voir les formes qui apparaissent le plus fréquemment, mais aussi toutes les fréquences d'apparition pour toutes les formes.
Remarquons que nous disposions de programmes perl qui nous donnaient sensiblement les mêmes résultats :
constitution d'un index permettant de naviguer entre le texte et les formes répertoriées.
constitution d'un dictionnaire qui ordonne les 1488 formes par ordre alphanumérique ou par ordre décroissant de fréquences d'apparition.

Les différents paragraphes comportent des caractéristiques lexicométriques particulières.

Le tableau suivant permet un premier abord :
Il recense les principales données lexicométriques pour chaque paragraphe.

ParagrapheNombre d'occurrencesNombre de formesNombre d'hapaxFréquence MaximaleForme
Le Che et le rugby100248836561de
L'homme74842633438de
L'homme politique76842033329de
Le guerillero105552740654de

Nous remarquons une certaine homogénéité entre les paragraphes, ce qui permet une analyse plus significative.
La forme la plus fréquente correspond à un "mot-outil", et non à un "mot-plein" (semème).


Afin de privilégier une certaine harmonie thématique pour cette analyse, nous nous attacherons à l'étude de lexèmes particuliers, notamment ceux qui réfèrent à Ernesto Guevara en tant qu'individu/actant du discours.
Nous étudions donc tout particulièrement les dénominations d'Ernesto Guevara, via les noms propres.



Parallèlement à ces données lexicométriques, une étude manuelle de recensement a été réalisée, car les dénominations élues ne devaient référer à Ernesto Guevara qu'en tant qu'entité référent du discours, et non comme morphème dénominatif, relevant d'un discours méta-linguistique (explication de surnom, notamment).

Nous observons alors avec Lexico3 :
51 occurrences de "Che"
21 occurrences de "Ernesto" ; 3 occurrences de "d'Ernesto" ; 1 occurrence de "qu'Ernesto"
17 occurrences de "Guevara"
2 items "Fuser"
1 hapax "Chancho"
1 hapax "CHE"

Les programmes perl ont engendré les mêmes résultats statistiques.

L'étude manuelle a permis une discrimination plus fine des lexèmes référant à Ernesto Guevara en tant que personnage du discours biographique.
Nous avons pu discerner quelques segments répétés, bien qu'ils soient libres ("Ernesto" a pour expansion droite récurrente "Guevara", mais apparaît aussi tout seul).
Elle recense :
1 occurrence de "Che"
45 occurrences de "le Che"
10 occurrences de "Ernesto"
9 occurrences de "Ernesto Guevara"
1 hapax de "Ernesto "Che" Guevara de la Serna"
1 hapax de "Ernesto Guevara de la Serna"
1 hapax de "El Che Guevara"
1 hapax de "Fuser"
1 hapax de ""Fuser""
1 hapax de "Chancho"
1 hapax de "Chang-Cho"

Les différences sont imputables au fait que les études lexicométriques incluent des occurrences qui ne sont pas considérées comme "dénominatives" lors de la recherche manuelle.
En effet, l'énoncé suivant n'inclut pas la seconde occurrence "Che" comme appartenant aux dénominations d'Ernesto Guevara, alors que Lexico3 n'opère aucune distinction sémantique.
A Mexico on l’appelle El Che Guevara car il débute ou finit ses phrases à la façon argentine, par l’interjection Che.

Nous pouvons toutefois remarquer que Lexico3 analyse certaines de ces dénominations comme étant des segments répétés :

LongueurSegmentFréquence
2de la 27
2le Che 20
2à la 16
2du Che 11
2Le Che 12
2Fidel Castro 13



Etude thématique


Cette seconde partie de l'analyse de ce corpus a pour but de mettre en évidence les principaux thèmes utilisés par l'auteur de ce site.
Nous utiliserons le second outil de traitement automatique de corpus "Tropes".
Celui-ci, dans un menu général, analyse les différents composants syntaxiques de ce texte et en déduit quelques éléments stylistiques.

Ce texte a été analysé comme étant plutôt de style "narratif" (un narrateur expose une succession d’événements, qui se déroulent à un moment donné, en un certain lieu), avec une mise en scène "dynamique et active".
Ceci signifie que l'auteur a privilégié des verbes d'action, c'est à dire des verbes "factifs", par opposition à "statifs" (verbes d'état), "déclaratifs" (verbes qui expriment une déclaration sur un état, une action, un être, un objet, etc.), "performatifs" (qui expriment un acte par et dans le langage).
En effet, 62,6% des verbes de ce texte sont catégoriés comme "factifs", soit 258 prédicats.

Tropes a de plus évalué que 24 propositions constituaient des "propositions remarquables", c'est-à-dire plutôt caractéristiques du style énonciatif du texte.
En regroupant différentes données thématiques et l'analyse syntaxique, ce logiciel a estimé que ce site pouvait être découpé en 9 épisodes distincts, donc 9 sous-parties assez homogènes.

L'affichage des données apparaît ainsi :


Afin d'obtenir tous les thèmes, Tropes réalise des rapprochements sémantiques entre les lexèmes observés dans le texte, et construit ainsi des "familles de référence" à partir d'un seuil de 3 items.
Tropes scinde les résultats selon 2 univers de référence distincts :
Le premier utilise des classes plutôt générales, des thèmes vastes, et donc nous disposons d'un point de vue global quant aux différentes thématiques ;
Le second est plus précis, il divise les thèmes du premier univers de référence en sous-parties plus fines, à l'instar de "conflit" qui deviendra "combat", "armée", "révolte", "conflit", etc.

Or certains lexèmes font l'objet d'erreurs de catégorisation sémantique.
La polysémie demeure un générateur d'ambiguïtés, bien que Tropes opte plutôt pour la solution qu'il jugerait la plus appropriée, et donc ne laisse pas de cas d'indétermination : il préfère noter une "erreur" plutôt que ne pas analyser l'occurrence litigieuse (il s'agit donc d'un logiciel déterministe).
Une ligne de texte indique les différentes catégories des mots, et la forme verbale conjuguée.

Voici les principaux thèmes du premier univers de référence, regroupés selon des catégories thématiques plus vastes, et spécifiques à ce discours biographique basé sur Ernesto Guevara :



Le second univers de référence répartit ces thèmes :

Voici un exemple de l'affichage de Tropes à propos du premier univers de référence, et détaillant le thème "conflit" (insertion des propositions qui contiennent les lexèmes comptabilisés dans une fenêtre en haut à gauche).
Ce thème est mis en relation dans la fenêtre du bas avec les autres thèmes qui entrent en collocation.



Les noms propres n'apparaissent pas dans ces recherches, Tropes les utilise dans une autre rubrique : "Les références utilisées".
Nous voyons les principaux thèmes répertoriés selon le nombre de sémèmes entrant dans leur composition :



Ici l'affichage permet de voir la répartition des items dans le corpus, et donc nous remarquons que le thème "che" est surtout présent dans la seconde moitié du texte (donc les paragraphes "L'homme politique" et "Le guerillero").
Un autre affichage permet d'obtenir le rapport entre tous ces thèmes, et donc nous remarquons que la plupart des occurrences de "ernesto" apparaissent dans le même contexte que "guevara".



Ces collocations sont fréquentes pour les dénominations, ainsi que le démontre la rubrique "mises en relation" :
13 fois "fidel > castro"
11 fois "ernesto > guevara"
3 fois "ernesto > serna" (dans "Ernesto Guevara de la Serna" particulièrement)
2 fois "ernesto > che_guevara"

Mais cette étude thématique complémente une analyse syntaxique qui permet à Tropes d'évaluer certaines caractéristiques stylistiques (stylométrie), et donc d'analyser plus finement les mots-outils.

Tropes distingue 5 catégories grammaticales :
les verbes (qui indiquent la mise en scène) ;
les joncteurs (les conjonctions de coordination et subordination) ;
les modalisations (les adverbes et locutions adverbiales) ;
les adjectifs (objectifs, subjectifs et numériques) ;
les pronoms (classés selon la personne et le nombre).

Tropes permet donc de retrouver tous les pronoms de première personne du singulier, quelle que soit leur flexion :


Quand le curseur de la souris est pointé sur le pronom de personnel "je", nous voyons affichée la mention (>ambiguïté< Pronom Deixis*) qui signale le fait que ce pronom du discours peut être le fait du narrateur (focalisation interne) ou bien imputable à des citations ou extraits de textes (à l'instar de ces exemples).
Les joncteurs d'addition sont fréquents dans les biographies, car relient les événements entre eux, ainsi que les constituants syntaxiques.
Ils démontrent une certaine évolution du récit.
Les modalisations de temps et de lieu permettent de situer cette narration dans l'espace spatio-temporel.
Nous pouvons donc estimer ce texte comme étant représentatif d'une biographie.



Relation entre les dénominations et les principaux thèmes à travers la biographie




Les deux outils de traitement automatique des corpus permettent d'observer l'évolution des items (Lexico3) et des thèmes (Tropes) dans les textes.
Nous allons dans un premier temps nous pencher sur les grandes catégories thématiques, puis nous les mettrons ensuite en relation avec les dénominations.

Tropes nous permet de visualiser la relation entre les thèmes sous plusieurs formes, ainsi que nous l'avons constaté précédemment.

Après analyse, nous remarquons que, selon l'univers de référence (UR1 ou UR2) :

Le premier paragraphe ("Le Che et le rugby") est le contexte d'apparition en exclusivité de plusieurs thèmes :
"sport" (UR1) ; "jeu" (UR1 et UR2) ; "adolescent" (UR1) ; "sport_de_balle" (UR2) ; "amitié" (UR2)

Le second paragraphe, "L'homme", atteste des thèmes :
"amerique_du_sud" (UR1) ; "famille" (UR1) ; "médecine" (UR2) ; "amour" (UR2)

Les deux derniers paragraphes ("L'homme politique" et "Le guerillero") sont caractérisés par les thèmes :
"conflit" (UR1) ; "caraïbes" (UR1) puis "cuba" (UR2) ; "politique" (UR1) ; "amérique_du-nord" (UR1) ; "mois" (UR2)

Ceci est prouvé par les affichages de Tropes :

pour le thème du "conflit" :



Le second exemple, à partir du nom propre "che", est aussi significatif, car ces deux formes apparaissent dans les mêmes contextes :



Nous remarquons l'opposition quant à la distribution avec "ernesto" :



Nous pouvons donc associer la dénomination "ernesto" avec le premier paragraphe ainsi que le début du second, donc les thèmes relevant de l'aspect "humain", et des qualités de sportif.
En revanche, l'auteur de la biographie privilégie la dénomination "che" dans les contextes discursifs ayant trait à la guerre, à la politique, et dont les énoncés sont présentés de façon temporelle (le thème "mois" qui induit une notion de rapport au temps).
Le même phénomène s'opère avec les lieux, par exemple la référence "bolivie" n'est attestée qu'à la toute fin du corpus, lors de la narration du décès d'Ernesto Guevara, assassiné en Bolivie.

Lexico3 effectue un calcul de probabilité statistique d'apparition pour toutes les formes du corpus, selon les différentes parties, et donc nous permet d'infuter cette théorie :
En effet, les items "Fidel" ; "Che" et "Castro" apparaissent un nombre anormalement élévé de fois, et donc portent respectivement les indices "+4" (pour 9 occurrences sur les 14 du corpus), "+3" (25 sur 51) et "+2" (8 sur13).
Ils constituent les formes caractéristiques de ce paragraphe (Le guerillero).
En revanche, "Rugby" (-2) ; "Guevara" (-3) et "Ernesto" (-4) n'apparaissent pas une seule fois, et donc deviennent des "spécificités négatives".
Cette tendance s'inverse pour le premier paragraphe (Le Che et le rugby):
Le second paragraphe (L'homme) attribue à "Guevara" l'indice "+5" pour 12 occurrences sur les 17 du corpus.
Le troisième paragraphe ("L'homme politique") emploie plutôt "Che" ("+2" : 17 occurrences) que "Ernesto" ("-2" : 1 hapax)


Nous voyons distinctement l'alternance des dénominations grâce au graphique de ventilation par paragraphe élaboré par Lexico3 :





Ce logiciel permet aussi d'extraire certains lexèmes choisis et de recréer leur contexte en tenant compte de plusieurs paramètres (tri par rapport aux lexèmes précédents ou ultérieurs, par paragraphe, etc).
Nous avons recherché les collocations autour de
"Che" (tri par ordre du texte).
La même analyse a été effectuée pour "Guevara" (tri par ordre du texte).
Et aussi pour "Ernesto" (tri selon le lexème suivant).

Nous pouvons alors constater que la dénomination "Ernesto Guevara de la Serna" apparaît en hapax dans le seul contexte de la naissance d'Ernesto Guevara.
Ernesto Guevara de la Serna naît le 14 juin 1928 à Rosario de la Fé en Argentine.

De plus la dénomination "Ernesto "Che" Guevara de la Serna" apparaît dans le texte comme la première, pour attribuer un auteur à la citation qui introduit la page html.
"J'aime le rugby et, devrais-je en crever, je continuerai à y jouer".
Ernesto "Che" Guevara de la Serna


Les surnoms ne sont attestés que dans le contexte thématique de leur emploi dans la vie d'Ernesto Guevara, et qui est relatée dans le premier paragraphe :
Il s'agit d'un contexte d'exclusivité.
Il choisit Fuser comme nom de rugbyman, contraction de Furibondo de la Serna.
Malgré son asthme qui le force parfois à abndonner le terrain, Ernesto est surnommé "Fuser", contraction de furibando ("furieux") et de la Serna (le nom de sa mère).
Avec quelques copains, il crée la revue Tackle ("plaquage"). Ernesto jouranliste signe ses premiers articles d'un autre de ses surnoms : "Chancho" ("cochon") ou "Chang-Cho".



Conclusion




Nous remarquons une forte corrélation entre les noms propres référant à Ernesto Guevara et leurs contextes d'apparition.
Les deux outils d'analyse automatique de corpus attestent des mêmes résultats, mais selon des démarches complémentaires : thématique d'une part (Tropes), lexicométrique d'autre part (Lexico3).
Il devient donc très important de ne pas se fier uniquement aux recherches manuelles, qui apportent des données intuitives et relatives.
L'intérêt de ces outils informatisés réside dans leur rigueur et leur impartialité, bien qu'un "relecteur" humain soit nécessaire afin d'optimaliser les résultats.
Cette étude démontre un large éventail de leurs possibilités.




travaux des autres étudiants de l'ILPGA