LEXIQUE

Cette partie présente les résultats d'une navigation lexicométrique du corpus Discours, réalisée essentiellement à l'aide de Lexico3. Nous avons également utilisé Pajek pour construire des graphes de mots, ainsi que TagCloudBuilder et Dico pour construire des nuages de mots.
Nous avons choisi d'observer l'emploi des mots "pacte", "programme", "projet" par les quatre principaux candidats à l'élection présidentielle de 2007, François Bayrou, Jean-Marie Le Pen, Ségolène Royal, et Nicolas Sarkozy.

Table des matières

  1. Exploration Lexico3
    1. Introduction
    2. Spécificités
    3. Statistiques par parties
    4. Concordances
    5. Corpus Présidentielles
  2. Graphes de mots Pajek
    1. Introduction
    2. Extraction des patrons
    3. Génération des graphes
  3. Nuages de mots
    1. Introduction
    2. Génération des nuages

Exploration Lexico3

Introduction

Le principal travail de cette partie consiste en une exploration lexicométrique des unités lexicales Pacte, Programme et Projet dans les différentes parties du corpus Discours, à savoir les parties discours2007 - regroupant chacune les discours de chaque candidat - et les parties candidat-date - regroupant les discours par mois et par candidat.

Nous nous sommes intéressés à l'emploi de ces trois mots qui jouent, dans le contexte d'une campagne présidentielle, le rôle de synonymes. En effet, l'ensemble des propositions que présente un candidat est habituellement appelé programme, et parfois projet. Or, nous avons vu apparaître de façon importante au cours de cette campagne 2007, l'appellation pacte. Il a semblé intéressant de se pencher sur ces unités - par qui sont-elles employées?, remarque-t-on une évolution positive ou négative au fil du temps de ces emplois? -, ainsi que sur leurs collocations.

Rappelons tout d'abord, par une brève définition, les sens et connotations des termes qui nous intéressent. Définitions du TLFi:

Programme: "1.Ensemble des actions qu'on se propose d'accomplir dans un but déterminé", "POL. Ensemble de projets, d'objectifs politiques (avec l'échéance de leur réalisation)."
Projet: "1. Ce qu'on a l'intention de faire et estimation des moyens nécessaires à la réalisation.", "2. Travail préparatoire, première rédaction. Synon. canevas, esquisse, schéma."
Pacte: "1. DROIT.Convention expresse ou tacite, en principe immuable, entre deux ou plusieurs parties.", "2. Résolution par laquelle quelqu'un décide de rester fidèle à quelque chose."

Le mot pacte insiste donc sur l'idée d'accord, de confiance, de fidélité et de valeur "éternelle". Cette nouvelle appellation montre une évidente volonté de changer l'image d'un programme présidentiel, et d'y impliquer l'électeur, afin que celui-ci se sente en confiance avec ses représentants politiques et que son sentiment de distance avec le monde politique soit moindre.

remonter

Les spécificités

Avant d'étudier le comportement particulier des trois unités lexicales choisies, nous avons fait un petit tour des principales caractéristiques lexicométriques du corpus (PCLC), et notamment des spécificités.

Les PCLC rendent compte, par partie selon la partition choisie, des occurrences, des formes, des hapax et de la fréquence maximale.
Occurrences: nombre d'occurrences des formes répertoriées.
Formes: nombre de formes graphiques différentes.
Hapax: nombre de formes qui n'apparaissent qu'une fois.
Fréquence maximale: nombre d'occurrences de la forme la plus fréquente.

PCLC par candidat, partition faite avec la balise discours2007:

Voir les PCLC par candidat et par mois, partition faite avec la balise candidat-date.
Les valeurs des balises candidat-date contiennent les initiales des candidats et l'année suivie du mois. Exemple: "fb-O7O1" correspond à "François Bayrou, janvier 2007". Notons que pour Jean-Marie Le Pen nous avons choisi les initiales "lp", pour des raisons d'économie.

Une spécificité est le rapport entre la fréquence d'une forme dans une partie donnée - i.e. sa sous-fréquence- et sa fréquence dans tout le corpus - i.e. sa fréquence totale. La sous-fréquence de la forme est comparée à la probabilité de voir se réaliser cette forme dans la partie. Cette probabilité est calculée à partir d'un modèle hypergéométrique.
Pour résumer, une forme sera dite spécifique positive d'une partie si sa fréquence dans cette partie est "anormalement élevée". De même, elle sera dite spécifique négative d'une partie si sa sous-fréquence est "anormalement faible".
Pour plus de précision, consulter le Manuel d'utilisation Lexico3.

Par défaut, l'indice de spécificité est calculé pour toutes les formes dont la fréquence est supérieure à 10, avec un seuil de probabilité fixé à 5%. Les tableaux des spécificités générés par Lexico3 présentent, pour chaque forme calculée, la fréquence totale, la sous-fréquence et le coefficient de spécificité (négatif ou positif).

Voir les spécificités de la partie Sarkozy.
Voir les spécificités de la partie Royal.
Voir les spécificités de la partie Bayrou.
Voir les spécificités de la partie Le Pen.

Le tableau des spécificités de Nicolas Sarkozy nous fait remarquer qu'une des formes les plus spécifiques positives de sa partie est le mot "pas" (cf.partie Négation de notre projet). De plus, on remarque que les mots "pacte", "projet", "programme" ne sont pas des spécificités positives de sa partie, mais des formes spécifiques négatives (coefficients de spécificités respectifs: -2, -3, -5). Il faut tout de même être vigilant sur ce que l'on peut en dire. En effet, les spécificités étant calculées par rapport à un modèle de probabilités hypergéométrique qui tient compte de la position de la partie au sein du corpus, le fait que la partie sarkozy soit la dernière peut influencer les données.

Les données concernant la partie de Ségolène Royal mettent en évidence le fait que la candidate emploie de façon très importante le mot "pacte". En effet, il apparaît dans les formes les plus spécifiques positives de sa partie. Le coefficient de spécificité est de +50. De plus, on trouve le mot "programme" en spécificité positive (coefficient +3), ainsi que la forme "projets", au pluriel (coefficient +5).

Quant aux spécificités de François Bayrou, on observe que le mot "projet" est spécifique positif de la partie (coefficient +8). En revanche, les mots "pacte" et "programmes", au pluriel, sont spécifiques négatifs (coefficients respectifs -4 et -2).

Le tableau de la partie de Jean-Marie Le Pen est relativement intéressant puisqu'il nous montre que le candidat emploie de façon anormalement faible les mots "pacte" et "projet", spécificités négatives avec des coefficients respectifs de -11 et -10. Le mot "programme" est en revanche une spécificité positive de sa partie (coefficient +2).

remonter

Les statistiques par parties

Nous nous intéressons ici à la ventilation de nos formes pacte, programme, projet.

Lexico3 peut générer des graphes de ventilation, selon la partition choisie, rendant compte des fréquences par partie des formes voulues. Nous avons observé, non pas les formes, mais les groupes de formes. En effet, le groupe pacte+, par exemple, contient non seulement la forme pacte, mais aussi les formes Pacte, pactes, Pactes.

Partition par candidat:



Fig.1.Fréquences absolues des groupes de formes pacte+, programme+, et projet+, par partie.

Ce graphique montre clairement que la candidate Royal est celle qui emploie le plus le mot "pacte". En effet, elle l'utilise abondamment, environ 70 fois plus souvent que les autres candidats.
De plus, on remarque que le mot "projet" est employé très fréquemment surtout par Sarkozy et Bayrou, souvent par Royal et très peu par Jean-Marie Lepen.
Enfin, le mot "programme" est employé quasiment à la même fréquence par Sarkozy, Bayrou et Royal, un peu moins par Jean-Marie Le Pen. Notons que ce dernier est le candidat qui utilise ces appellations le moins fréquemment.



Fig.2.Fréquences relatives des (groupes de) formes.

La fréquence relative d'une forme est sa fréquence dans la partie par rapport à la longueur de cette partie - i.e. le nombre d'occurrences de la forme voulue divisé par le nombre d'occurrences total de la partie.

On observe que Royal est la seule à utiliser le mot "pacte" extrêmement fréquemment par rapport aux autres formes utilisées. En effet, les occurrences de ce mot sont très rares dans le discours des autres candidats, par rapport aux mots qu'ils emploient.
De plus, relativement aux longueurs des parties, ce sont Bayrou et Royal qui utilisent le plus l'appellation "projet".
Encore une fois, on remarque que les trois formes représentent un très faible poids dans le discours de Le Pen.



Fig.3.Spécificités des formes recherchées par partie.

Ce graphique nous montre une fois de plus, l'emploi abondant de "pacte" par Ségolène Royal par rapport aux autres candidats.


Partition par candidat et par mois:

Nous n'avons retenu ici que le graphe des fréquences relatives, plus explicite pour l'observation d'une évolution temporelle. En effet, les parties par mois n'ayant pas nécessairement une taille équivalente, il est plus intéressant d'observer la fréquence d'une forme dans une partie par rapport à la taille de cette partie.
Partitionner le corpus avec la balise candidat-date imposant un grand nombre de parties, notre graphe a été agrandi et découpé en quatre parties afin que les données soient lisibles.


Fig.4.Parties par mois de François Bayrou (fb).

On observe que l'emploi du mot "projet" chez Bayrou a augmenté de façon importante de janvier à mars. Il a légèrement baissé en avril, mais est resté relativement fréquent. Notons tout de même que le mot "programme" a été davantage utilisé en avril.



Fig.5.Parties par mois de Nicolas Sarkozy (ns).

On remarque que le mot "projet" a été utilisé davantage à partir d'octobre 2006, et de façon relativement constante ensuite. C'est le mot qui a été le plus utilisé des trois par Sarkozy tout au long de la campagne.



Fig.6.Parties par mois de Ségolène Royal (sr).

L'observation de ce graphique est intéressante. En effet, on observe que l'emploi de "projet" a été plus fréquent que celui de "pacte" d'octobre 2006 à janvier 2007 (mis à part en décembre, où on peut se demander si l'emploi de "pacte" n'était pas relatif au "pacte écologique" de Nicolas Hulot). C'est à partir de février que la montée de l'utilisation de "pacte" par Ségolène Royal a été fulgurante.



Fig.7.Parties par mois de Jean-Marie Le Pen (lp).

L'évolution temporelle des emplois pour la partie de Jean-Marie Le Pen montre une fois de plus que ces mots ont été peu utilisés par le candidat. Notons néanmoins une légère augmentation de la fréquence d'utilisation du mot "programme" en octobre et novembre 2006.

remonter

Les concordances

Une concordance nous permet de rendre compte des différents contextes dans lesquels on peut trouver une forme. Nous avons décidé de trier ces contextes dans l'ordre alphabétique selon le premier mot qui suit la forme observée.

Partition par candidat

Concordance de programme+

Pour le candidat Bayrou, "programme" est le plus fréquemment utilisé dans les contextes suivants : "programme commun", "programme politique".
Pour le candidat Le Pen, on observe surtout les collocations: "programme de construction", "programme de redressement", "programme de réformes".
La candidate Royal emploie le mot le plus souvent dans les contextes suivants: "programme de logement", "programme de la droite", "programme scolaire".
Chez Nicolas Sarkozy, on retrouve les motifs "programme d'armement", "programme de qualité".
On observe que "programme" est souvent suivi d'un syntagme prépositionnel complément du nom, on parle surtout de "programme de...". En revanche, Bayrou produit davantage de constructions de la forme "programme + Adjectif".

Concordance de projet+

Chez François Bayrou, les constructions avec "projet" les plus présentes sont :"projet d'espoir", "projet de résistance", "projet de société", "projet républicain", "projet social". Il utilise également beaucoup "projet pour..." ("...la France", "...le Monde", "...le XXIème siècle").
Dans les discours de Jean-Marie Le Pen, on n'observe pas particulièrement de motifs récurrents contenant "projet".
Chez Ségolène Royal, on trouve essentiellement "projet présidentiel", "projet socialiste", "projet de société", plusieurs occurrences de "projet contre projet(s)", ainsi que "mon projet c'est", et des constructions du type "projet que je..." ("...porterai", "...présenterai").
Nicolas Sarkozy, quant à lui, utilise le plus souvent les constructions "projet collectif", "projet de civilisation", "projet politique", "projet pour la France", "projet présidentiel", "projet républicain".

Concordance de pacte+

Chez le candidat Bayrou, on observe "pacte écologique", "pacte républicain".
Chez le candidat Le Pen, encore une fois, il n'y a aucune construction récurrente de "pacte". Le mot n'apparaît que trois fois dans ses discours.
Ségolène Royal utilise un grand nombre de qualificatifs pour "pacte". On trouve essentiellement "pacte avec les jeunes", "pacte de confiance", "pacte de stabilité", "pacte présidentiel", "pacte républicain", "pacte social", "pacte de la réussite", et aussi "pacte écologique".
Chez Nicolas Sarkozy, on observe "pacte écologique", "pacte européen".
Notons que Royal est la seule à caractériser le mot "pacte" de "présidentiel". De plus, le mot "pacte" est plus souvent utilisé en général dans le contexte "pacte écologique" de Nicolas Hulot.

Partition par candidat et par mois

Concordance de programme+

Concordance de projet+

On observe que, dans le discours de Bayrou, "projet républicain" et "projet de société" apparaissent massivement en mars 2007.
Chez Royal, "projet présidentiel" apparaît essentiellement en Janvier.
Sarkozy emploie davantage "projet politique" et "projet présidentiel" en avril.

Concordance de pacte+

L'observation intéressante de cette concordance est le fait que Royal parle de "pacte de stabilité" en octobre, de "pacte social" en novembre et décembre, du "pacte écologique" de Nicolas Hulot en janvier, et introduit de façon massive son "pacte présidentiel" à partir de février. C'est en avril qu'elle commence à utiliser "pacte républicain".

remonter

Corpus Présidentielles

Nous avons tenté de mettre en regard les observations obtenues lors de cette exploration lexicométrique du corpus Discours avec les données du corpus Présidentielles.
Nous avons donc réalisé une brève étude des partitions par mois de ce corpus. En effet, on peut observer certains phénomènes quant à l'évolution temporelle des emplois des mots qui nous intéressent, dans le milieu journalistique, à savoir dans la rubrique "Présidentielles 2007" du journal Le Monde.

Graphiques de ventilation par mois:


Fig.1.Fréquences absolues.

"projet" est le mot le plus fréquemment employé. Vient ensuite le mot "programme", puis l'appellation "pacte". De plus, on remarque un accroissement constant de la fréquence de "projet" et "programme", de novembre 2006 à mars 2007. "Pacte", en revanche, voit son emploi augmenter jusqu'en février, et diminuer ensuite.



Fig.2.Fréquences relatives.



Fig.3.Spécificités.

Ce graphique nous montre que les trois mots connaissent un emploi anormalement élevé en Février. De plus, le mot "pacte" est spécifique négatif du mois de mars, et le mot "projet" du mois de janvier.


Concordances par mois:

Concordance de programme+

Concordance de projet+

Concordance de pacte+

Ces concordances nous montrent tout d'abord que, en décembre 2006 et janvier 2007, on parle essentiellement dans la rubrique Présidentielles du Monde du Pacte Ecologique de Nicolas Hulot. C'est uniquement au mois de février que le "pacte présidentiel de Ségolène Royal" apparaît.

De plus, on trouve à plusieurs reprises, "projet d'espoir" - livre programme de François Bayrou -, et on parle autant de "projet socialiste", que de "projet de l UMP" et de "projet de l'UDF".

Enfin, on observe de façon équivalente "programme socialiste", "programme de l'UMP", "programme de François Bayrou" et "programme du FN" ou "programme de Jean- Marie Le Pen".

Notons que le mot "projet" n'est jamais utilisé dans ce corpus pour caractériser les propositions de Le Pen, et que le mot "pacte" est employé pour définir les propositions de la candidate Royal uniquement.

remonter

Graphes de mots Pajek

Introduction

Pajek est un logiciel qui permet de générer des graphes rendant compte des attirances cotextuelles d'unités lexicales. Il construit un graphe à partir d'un fichier au format .txt ou .net (Pajek networks) dans lequel les noeuds (mots) et le poids des arcs reliant ces noeuds sont indiqués.
De tels graphes peuvent être très utiles à la visualisation des relations de collocation des unités.

remonter

Extraction des patrons

Nous disposons d'un fichier XML par candidat; fichiers que nous avons créés à partir de l'étiquetage du corpus Discours (cf. Partie Corpus du rapport). Ces fichiers sont structurés de la façon suivante:

<discours>
<s>
 <e>
  <st>forme</st>
  <lm>lemme</lm>
  <tp>CATEGORIE</tp>
 </e>
 <e>
  ...
 </e>
</s>
<s>
...
</s>
</discours>

Nous avons extrait, pour chaque candidat, les patrons NOM ADJ où le lemme de NOM est égal soit à pacte, soit à programme, soit à projet. Voici la feuille de style établie:

<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
				
<xsl:output method="text"/>

<xsl:template match="/">
 <xsl:apply-templates/>
</xsl:template>

<xsl:template match="e">
 <xsl:if test="(lm[(text()='pacte')or(text()='programme')or(text()='projet')])
    and(following-sibling::e[1][tp[text()='ADJ']])">
   <xsl:value-of select="lm"/><xsl:text> </xsl:text>
   <xsl:value-of select="following-sibling::e[1]/st"/><xsl:text>
</xsl:text> 
 </xsl:if>
<xsl:template>

</xsl:stylesheet>

Résultats des extractions:
Voir les patrons de Bayrou.
Voir les patrons de Le Pen
Voir les patrons de Royal
Voir les patrons de Sarkozy

Ces patrons ont été extraits dans le but d'observer les adjectifs attirés par "pacte", "programme" et "projet" pour nos quatre candidats.

remonter

Génération des graphes.

Nous avons appliqué le programme perl Patron2graphml.pl (cf. Projet BàO, série4) à nos fichiers de patrons afin d'obtenir des fichiers au format GraphMl. Ensuite, nous avons appliqué à ces fichiers résultats la feuille de style GraphML2Pajek.xsl (cf. Projet BàO), pour obtenir des fichiers au format texte, compatibles avec Pajek.

Les graphes pour chaque candidat ont été générés. Nous présentons ci-dessous deux versions pour chaque candidat. La première indique les valeurs des arcs, i.e. la fréquence des patrons. La seconde applique aux arcs une épaisseur différente selon l'importance de la fréquence des patrons.
Notons que nous n'avons qu'une version pour Jean-Marie Le Pen, puisque la fréquence des patrons est toujours égale à 1.


Fig.1 et 2. François Bayrou



Fig.3. Jean-Marie Le Pen



Fig.4 et 5.Ségolène Royal



Fig.6 et 7.Nicolas Sarkozy


A première vue, on remarque que les graphes de Nicolas Sarkozy et de François Bayrou se ressemblent quant à leur forme et leur répartition. D'une part, ils ont tous deux un patron dominant, "projet politique" pour Sarkozy et "projet républicain" pour Bayrou, avec une vingtaine d'occurrences. D'autre part, le nom le plus utilisé, à savoir "projet", est celui qui attire le plus d'adjectifs (en moyenne trois fois plus que les noms "pacte" et "programme").

En revanche les graphes de Ségolène Royal et de Jean-Marie Le Pen se distinguent chacun des autres.
En effet, Royal bat de loin le record du patron le plus fréquent, "pacte présidentiel" avec 104 occurrences. De plus, les adjectifs en relation avec le nom qu'elle emploie le plus souvent, à savoir "pacte", sont peu variés mais très fréquents. Enfin, on observe un équilibre de la fréquence et de la variété des adjectifs attirés par les noms "programme" et "projet".
Le graphe de Jean-Marie Le Pen nous montre une fois de plus que les noms "programme", "projet" et (surtout) "pacte" ne font quasiment pas partie de son discours, et qu'aucune construction du type "pacte|projet|programme + adjectif" n'est répétée.

remonter

Nuages de mots

Introduction

Les nuages de mots permettent une représentation des mots les plus utilisés.
Nous avons généré des nuages de mots à partir des patrons extraits dans la partie précédente, afin d'obtenir un complément à la représentation des utilisations des adjectifs qualifiant "pacte", "programme" et "projet" par nos candidats.

Nous avons utilisé le logiciel DICO de Jean Veronis qui, à partir d'un fichier texte, génère un fichier dictionnaire répertoriant les différentes formes présentes et leur fréquence correspondante.
Le nuage est généré ensuite par le logiciel TagCloudBuilder. Celui-ci prend en entrée le fichier dictionnaire obtenu à partir de DICO et construit un fichier HTML dont le code contient un style - taille et couleur - à appliquer aux mots selon leur fréquence. Ce style est emprunté au Nébuloscope de Jean Véronis. Des liens pointant vers une recherche Google sont automatiquement insérés pour chaque mot.

Il aurait fallu, pour réaliser un "bon nuage", modifier ces liens de telle sorte que, en cliquant sur un mot, on puisse visualiser les différents contextes de ce mot dans le corpus. Or, nous avons choisi de ne pas nous intéresser aux liens puisque, les nuages ayant été établis à partir de nos fichiers de patrons, les concordances des mots n'étaient pas pertinentes ici.
Ces nuages nous permettent simplement de visualiser d'une façon différente l'importance des adjectifs liés à "pacte", "programme" et "projet" dans le discours de chacun, bien que la représentation en graphes Pajek constitue évidemment un meilleur outil dans ce cas précis.

remonter

Génération des nuages

Fichiers générés par DICO:
Bayrou
Le Pen
Royal
Sarkozy

Nuages de mots:


Bayrou



Le Pen



Royal



Sarkozy

remonter