Patricia GUILPIN.

Maîtrise T.A.L.

 

Sommaire

Sommaire *

ETUDE ET ANALYSE D’UN SITE WEB. UTILISATION DES OUTILS DE LEXICOMETRIE *

Le corpus Boeing *

EXPERIMENTATION D’UN OUTIL D’ANALYSE LEXICOMETRIQUE : LEXICO. *

Historique *

Corpus : le discours de Stone *

La segmentation du corpus *

Création d’une liste enregistrée en "corpussnoc.par" *

Statistiques par partie. *

Partition du corpus *

Les spécificités *

Les spécificités évolutives *

Une analyse factorielle ou AFC *

Analyse des spécificités *

Indications bibliographiques *

Annexes *

 

ETUDE ET ANALYSE D’UN SITE WEB. UTILISATION DES OUTILS DE LEXICOMETRIE

Le corpus Boeing

a) Source :

Le corpus traité ici a été construit à partir des ressources textuelles disponibles sur le Web à l'adresse suivante : http://www.boeing.com/news/speeches/current/archive.html. Cette page est une des pages du site du constructeur d'avion américain Boeing. Elle regroupe des discours de dirigeants de la société aéronautique. Nous avons dans un premier temps traité l'ensemble des données disponibles sur cette page pour constituer un corpus de référence (le corpus XML infra). Nous avons ensuite extrait de ces données un ensemble de textes correspondant à certains auteurs.

b) Constitution et préparation du corpus : aspiration, normalisation, extraction de zones textuelles particulières :

Le site Boeing a été partiellement aspiré à partir de la page d'entrée des discours. Cette aspiration a été réalisé avec l'aspirateur "Web Devil 5.0" sous Macintosh. L'arborescence initiale du site (à partir de la page d'entrée donnée) a été reconstituée localement.

A partir de cet état off-line du corpus, nous avons utilisé des outils existants pour normaliser et archiver ces données. Ces outils sont intégrés dans un prototype de manipulation de données textuelles qui regroupent des outils utilisés par exemple dans la gestion de corpus construit sur Internet. Cet outil, nommé MKCORPUS, permet de réaliser des opérations élémentaires sur des corpus textuels. Il permet aussi de générer, à partir d'un corpus aspiré sur le Web, un corpus normalisé (au format XML) de ce corpus initial.

Pour les textes (1) et (3) on dispose d'un extrait du corpus complet, il regroupe les interventions d'un seul intervenant sur plusieurs mois et sur plusieurs années (1998-2000).

c) Descriptif du codage utilisé pour ces fichiers:

Chaque balise (que l'on appelle via le nom utilisé par l'item nomBalise) est construite de la manière suivante : <nomBalise=valeurBalise>. Les valeurs des balises utilisées sont les suivantes.

Les majuscules ont été recodées sous la forme suivante : le caractère * suivi de la même lettre en minuscule. Chaque paragraphe est introduit via le caractère §.

 

 

 

EXPERIMENTATION D’UN OUTIL D’ANALYSE LEXICOMETRIQUE : LEXICO.

 

Historique

L’outil d’analyse lexicométrique Lexico3, développé par André Salem, Cédric Lamalle et William Martinez, est conçu pour traiter des textes comportant plusieurs centaines de milliers d’occurrences. La version initiale de ce logiciel (Lexico1) fut développé au sein du laboratoire Lexicométrie & textes politiques de l’E.N.S. Fontenay-Saint-Cloud pour les micro-ordinateurs de type Macintosh. Il est désormais maintenu par l’équipe LEXICO de l’UPRES SYLES de l’Université de la Sorbonne Nouvelle.

N.B. : Il est possible de télécharger Lexico3 ainsi que d’accéder à un manuel en ligne à partir du site web de Paris III à l’adresse suivante : http://www.cavi.univ-paris3.fr/ilpga/ilpga

 

Corpus : le discours de Stone

Nous avons extrait de la version (1) du corpus Boeing (préparée spécifiquement à un traitement sous Lexico) les parties du discours de Stone. Nous disposons donc de huit interventions de Stone en 1998, trois en 1999, et trois en 2000, classées par ordre chronologique croissant.

Les caractéristiques du corpus " corpussnoc.txt ", préparé sous emacs et à l’aide de macros, sont les suivantes :

  1. le texte est nécessairement enregistré au format (*.txt),
  2. le corpus est partitionné de façon chronologique et par auteur. Ces informations figurent sous forme de clés, à l’intérieur de chevrons, de telle sorte qu’elles n’influent pas sur les comptages statistiques. Ainsi, chaque balise est construite selon la structure <nomBalise=valeurBalise>,les balises pouvant prendre différentes valeurs (aut, autan, anaut, autanmois, anmois et an.
  3. les paragraphes sont indiqués par §,
  4. tous les caractères sont en minuscules : afin de ne pas créer de doublons inutiles pour l’analyse des formes, les majuscules (début de phrase, noms propres) ont été converties en minuscules précédées du marqueur *.
  5.  

    La segmentation du corpus

    Pour la segmentation du corpus, nous avons conservé les paramètres par défaut (segmentation automatique).

     

    Création d’une liste enregistrée en "corpussnoc.par"

    Lors de cette étape, la liste des formes contenu dans le corpus Boeing est créée. Elle se présente sous forme de dictionnaire suivant l’ordre des occurrences décroissantes (la mention de chaque forme est accompagnée de son nombre d’occurrences). Il est également possible de visualiser cette liste dans l’ordre alphabétique en cochant la case ‘Index alphabétique’ dans le module Segmentation, ou en cliquant sur l’onglet ‘ordre lexicométrique’ afin de basculer sur l’ordre lexicographique.

    Les textes déjà segmentés ont l’extension " .par " et peuvent être ouverts à partir de l’icône ‘ouverture d’une base’.

    N.B. : l’opération de segmentation produit des fichiers de sorties, comme par exemple :

  6. corpus.par contient des informations concernant les paramères,
  7. corpus.alp est un index des formes graphiques classées par ordre alphabétique,
  8. corpus.dic contient le dictionnaire des formes classées en fonction de leur fréquence,
  9. corpus.num contient le texte numérisé (à usage interne).

 

Statistiques par partie.

Nous allons présenter diverses fonctionnalités de Lexico 3 que nous avons testées, en insistant davantage sur les spécificités historiques.

A chaque étape que nous allons décrire, nous précisons, qu’il est toujours possible de visualiser les contextes d’emplois des mots ou groupes de mots en ayant recours aux concordances. En effet, l’option ‘Concordance’ de Lexico permet non seulement de fournir les concordances des formes voulues, mais aussi d’opérer des tris (avant ou arrière). Ces résultats sont enregistrés au format html sous le nom ‘conc1.html’.

Enfin , on pourra créer une carte des paragraphes des mots du dictionnaire, et visualiser le texte à partir de la carte des sections à partir du découpage des partitions (intégré dans le codage du corpus).

Au préalable, nous avons lancé la création de la liste de segments répétés (avec les bons délimiteurs de séquence, et les seuils de fréquence définis par défaut) afin de réaliser des spécificités à la fois sur les mots simples et les séquences de deux mots existants.

 

Partition du corpus

Nous avons réglé les paramètres de la partition sur la clé ‘dat’, afin de réaliser une partition sur chaque discours de Stone Cypher en diachronie.

A cette étape, les formes sélectionnées peuvent être traitées sous forme de graphe, et les principales caractéristiques de la partition figurent dans un tableau (cf. Annexe p. 1 et le fichier partition.html).

Le tableau obtenu donne le nombre d’occurrences pour chacune des parties, son nombre de formes, le nombre d’hapax, la fréquence de la forme la plus présente et la forme proprement dite (ici, toujours l’article défini ‘the’).

L’écart de taille entre les parties est égal à un rapport de 1 à 6,22 (455 occurrences le 27-04-98 et 2826 occurrences le 09-05-2000, et l’écart entre les formes moins important (rapport de 1 à 4, 42) (cf. les mêmes dates).

(N.B. : Les fichiers crées lors des manipulations suivantes sont tous enregistrés sous l’extension " .par ". On les retrouve dans l’onglet de navigation).

 

Les spécificités

A partir de cette zone de dialogue, il est possible d’analyser les spécificités.

Cette manipulation a pour effet de créer un fichier " *.spf " qui indique la " ventilation ", c’est-à-dire ‘la suite des n nombres (n= nombre de parties du corpus) constituée par la succession des sous-fréquences de cette unité dans chacune des parties, prises dans l’ordre des parties, dans les parties et adjoint aux fréquences remarquables un indice (+ lors d’un sur-emploi, - lors d’un sous-emploi)’. Plus simplement, on considère la fréquence des mots d’une partie et ‘on la compare’ à l’ensemble du corpus (pas de critère historique).

Nous avons réalisé les spécificités de chaque sous-partie afin d’en fournir une analyse. Ces fichiers sont nommés spe1 à 14, en fonction de l’ordre chronologique croissant, et figurent en annexe (pp. 5-29).

Les spécificités évolutives

Cette fonction permet une étude du corpus en diachronie. Le principe est le suivant :

On sélectionne la partie voulue avec la souris, par exemple la partie la plus récente (2000-05-22), puis on clique sur la fonction ‘spec. Ev.’. Bien entendu, le calcul des spécificités se fait désormais uniquement par rapport aux parties antérieures à la partie sélectionnée.

Nous avons réitéré cette opération en prenant la partie directement moins récente, et ainsi de suite. A cette étape, il faut bien veiller à sauvegarder et renommer de façon explicite les fichiers produits. Les spécificités sont fournies en annexe à partir de la page 30.

 

Une analyse factorielle ou AFC

Une analyse factorielle est une famille de méthodes statistique d’analyse multidimensionnelle. Elle se réalise à partir des tableaux de nombre sur les occurrences, obtenus précédemment. Une AFC vise à extraire des facteurs résumant approximativement par quelques séries de nombres l’ensemble des informations contenues dans le tableau de départ.

Nous avons obtenu deux schémas : les schémas img-afc-date1 et img-afc-date2.

On remarque de façon empirique que, lorsque sur le schéma obtenu pour un réglage de l’axe vertical sur 2 (img-afc-date1), les différents points appartiennent à une parabole. De même, si l’axe vertical est réglé sur 3 (img-afc-date2), les points semblent appartenir à une sinusoïde. Les points excentrés correspondent généralement à un changement, un basculement dans l’emploi du vocabulaire à un moment donné.

 

Analyse des spécificités

Nous nous sommes plus particulièrement intéressée aux spécificités, évolutives ou non, en procédant, à partir des tableaux précédemment décrits, à l’analyse systématique des champs lexicaux.

Nous avons ainsi mis en valeur des évolutions dans le discours de Stone.

Voici nos conclusions sur l’analyse des spécificités :

L’analyse des champs lexicaux au cours de l’année 2000 fait apparaître que le discours est fondé chronologiquement d’abord sur la notion de connaissance, puis sur l’innovation technologique, enfin sur la puissance militaire et industrielle d’Air Force à l’échelle nationale et mondiale. Ainsi, a) l’implication de l’allocutaire, importante dans le premier discours, se restreint : on observe un basculement de l’emploi des pronoms vers les spécificités négatives, et ce, dès la deuxième intervention (une semaine plus tard), b) le thème de l’innovation technologique fait ressortir l’emploi de verbes d’action comme ‘find’, ‘use’, ‘act’, c) dans le troisième, les noms, en tant que mots-clés, dominent. Enfin, tout lexique afférent au commerce est systématiquement écarté (nom de la compagnie, notion de coût financier, de fournisseurs etc.).

Remarques :

 

En 1999, l’analyse des termes sur-employés montre une autre évolution du discours : alors que le premier (28-01-1999) gravite essentiellement autour de la notion de commerce (coûts financiers, résultats, performance, services), le second s’équilibre autour des questions strictement commerciales et l’aspect militaire, enfin le troisième est fondé sur les rapports entre Air Force et l’allocutaire (public, client, lecteur etc.). Cela se traduit par un jeu d’opposition des pronoms : en effet, l’utilisation du pronom de première personne du pluriel ‘we/us/our’ domine dans le discours intermédiaire, tandis que, parallèlement, le pronom de deuxième personne du pluriel ‘you’ est sous-employé ; ils apparaissent ainsi en distribution complémentaire. Inversement, l’emploi du pronom de deuxième personne du pluriel est très nettement majoritaire dans le troisième discours.

Remarques :

  1. Les spécificités évolutives soulignent encore davantage le jeu des pronoms.
  2. A ce stade, les ‘ spécificités ‘simples’ et évolutives permettent toujours d’aboutir aux mêmes conclusions.
  3. Enfin, les spécificités réalisées pour l’ensemble de l’année 1998 permettent, tout en ayant une vision plus globale de la situation, de retrouver l’ensemble des thèmes abordés (sans leur évolution dans le temps). De même que pour l’année 2000, elles permettent de visualiser un sous-emploi du nom de la compagnie Boeing : nous nous attendons donc un sur-emploi du nom de la compagnie en 1998.

 

Enfin, les discours de 1998 sont axés a) pour l’essentiel sur la compagnie commerciale Boeing et ses projets, b) sur quelques thèmes particuliers : par exemple, dans le discours du 24 avril 1998, il est plus particulièrement question des avions Boeing (test, flight, airplane, aircraft etc.), tandis que le discours du 16-06-1998 parle de la formation des ingénieurs (idée du progrès)). Ainsi, dans les discours dans lesquels l’accent est mis strictement sur le commerce (ex. 07-09-1998, 01-06-1998), nous avons observé une conjonction fréquente des sur-emplois du nom de la compagnie Boeing et des pronoms indiquant la première personne du pluriel, montrant une forte implication du locuteur.

Remarques :

  1. Les spécificités réalisées sur l’ensemble des discours de l’année 1998 mettent bien en évidence les deux types d’orientation que prennent les discours, la mention de la compagnie Boeing dominant très nettement.
  2. Les résultats fournis par les spécificités ‘simples’ et évolutives concordent pour les derniers discours de l’année. En revanche, à mesure que nous reculons dans le temps, nous avons noté des écarts importants entre les spécificités évolutives et les spécificités ‘simples’. En effet, entre le 01-06-1998 et le 01-10-1998, dans les spécificités évolutives, le vocabulaire est moins étendu, plus général et disparate, donc plus difficile à analyser.
  3. Enfin, le discours du 17-04-1998 est le seul ne présentant pas de spécificités négatives (simples).

Ainsi, l’analyse des spécificités, aussi bien simples qu’évolutives, nous a permis de montrer les orientation successives que prenaient les discours de Stonecipher. A cette occasion, nous avons constaté que les spécificités simples et évolutives révélaient de façon semblable les évolutions de ce corpus.

Il ressort de cette analyse que l’outil d’analyse statistique Lexico3 permet de faire ressortir efficacement des résultats pas aisément visibles ‘à l’œil nu’, et, qu’il s’avère ainsi particulièrement adapté à l’analyse de discours à caractère politique.

 

Indications bibliographiques

BERTAUT, Monica Becue, " Apport des méthodes lexicométriques à l’étude d’un texte : Evolution du vocabulaire, coupures thématiques et stratégie discursive ", in Lexicometrica.

GUILHAUMOU, Jacques, " L’analyse de discours et la lexicométrie. Le Père Duchesne et le mouvement cordelier (1793-1794) ", in Lexicometrica.

LABBE, Cyril, LABBE, Dominique, " Que mesure la spécificité du vocabulaire ? ", in Lexiometrica.

MAYAFFRE, Damon, " Temps lexical ou temps politique ? ", in Lexicometrica, numéro spécial, mars 2000.

SALEM, André, " De travailleurs à salariés. Repères pour une étude de l’évolution du vocabulaire syndical (1971-1990) ", in Lexicometrica.

 

Annexes

 

  • img-afc-date1 : ici
  • img-afc-date2 : ici
  • SpecifEvolutive1 : ici
  • SpecifEvolutive10 : ici
  • SpecifEvolutive11 : ici
  • SpecifEvolutive12 : ici
  • SpecifEvolutive13 : ici
  • SpecifEvolutive14 : ici
  • SpecifEvolutive1998 : ici
  • SpecifEvolutive1999 : ici
  • SpecifEvolutive2 : ici
  • SpecifEvolutive2000 : ici
  • SpecifEvolutive3 : ici
  • SpecifEvolutive4 : ici
  • SpecifEvolutive5 : ici
  • SpecifEvolutive6 : ici
  • SpecifEvolutive7 : ici
  • SpecifEvolutive8 : ici
  • SpecifEvolutive9 : ici
  • Specif1 : ici
  • Specif1998-06-01 : ici
  • Specif1998-06-16 : ici
  • Specif1998-09-07 : ici
  • Specif1998-09-24 : ici
  • Specif1998-10-01 : ici
  • Specif1998-10-14 : ici
  • Specif1998-10-15 : ici
  • Specif1999-01-28 : ici
  • Specif1999-05-26 : ici
  • Specif1999-07-30 : ici
  • Specif2000-05-02 : ici
  • Specif2000-05-09 : ici
  • Specif2000-05-22 : ici