> Retour au Perl et XML - Maitrise Tal 2002 <


>>>>>>>>>>

Réalisé par V. Sanchez & M.Stachura

 

 

INDEX

INTRODUCTION

PREPARATION DU CORPUS  « Campagne2002 »

PRESENTATION DU CORPUS « Campagne2002 » AVEC Lexico 3

    PRESENTATION

        Paramètres lexicométriques généraux

        Délimiteurs

    OUVERTURE DE LA BASE

        Dictionnaires

            Formes en ordre lexicométrique

            Formes en ordre lexicographique       

        Statistiques en partie

            Partition par PAGE

            Partition par date

        segments répètes

        Carte de paragraphes

 

SELECTION DE NOTRE  CORPUS

    PRESENTATION  

        Corpus : Lionel Jospin

            Spécificités par page

        Corpus : Jaques Chirac

            Spécificités par page

        Corpus : Conscience Politique

            Spécificités par page

 

ANALYSE DE NOTRE CORPUS

     FORMES : France /  Europe / monde

            Graphique de ventilation

            Concordances                     

            Carte de paragraphes

            Groupes de formes

 

    FORMES : sécurité / emploi / santé / éducation

            Graphique de ventilation

            Concordances  

            Carte de paragraphes

            Groupes de formes

 

 

    FORMES :  je / Je / nous / Nous

            Graphique de ventilation

            Concordances  

            Carte de paragraphes

            Groupes de formes

 

    AUTRES FORMES 

            Observations

 

CONCLUSIONS

 

ANNEXES  (format HTML)

 

CORPUS « Campagne2002 » AVEC Lexico 3       

Paramètres lexicometriques généraux

Partition par PAGE

Partition par date

 

NOTRE CORPUS

Paramètres lexicométriques généraux

Partition par PAGE

Partition par date

 

Spécificités par page

      Lionel Jospin

      Jaques Chirac

      Conscience Politique

 

FORMES : France /  Europe / monde        

Concordances et Graphique de ventilation                

Carte de paragraphes

Groupes de formes

 

FORMES : sécurité / emploi / santé / éducation

Concordances et Graphique de ventilation                

Carte de paragraphes

Groupes de formes

 

FORMES :  je / Je / nous / Nous

Concordances et Graphique de ventilation                

Carte de paragraphes

Groupes de formes

      

AUTRES FORMES 

Concordances et Graphique de ventilation                

Carte de paragraphes

Groupes de formes

 

 

INTRODUCTION

Si Internet est devenu un outil de campagne électorale, l’indice de fréquentation par les électeurs reste encore très bas (69% des électeurs ne les ont jamais visités. Source JDN). Cependant, l’étude et l'analyse du contenu lexical de ces pages peuvent nous révéler et témoigner de l’utilisation et du détournement de jargons spécifiques dans le discours socio-politique.

Les statistiques textuelles et l'analyse automatique de ces textes, ont pour but de nous donner une idée de la construction d’un texte extrait de l’outil internet.

Nous avons voulu effectuer une analyse statistique textuelle, en considérant principalement les variables inhérentes aux textes des candidats (l’utilisation, la manipulation de certaines formes).

A l’aide de Lexico 3 nous allons présenter des variations et certaines caractéristiques du corpus qui nous intéresse. Dans un premier temps nous allons faire une présentation du corpus « Campagne 2002 » préparé par M  Serge Fleury , avec une petite introduction à Lexico 3 pour introduire l’extrait qui nous intéresse et passer ainsi à l’analyse plus détaillée.

 

Pour mieux développer notre analyse nous allons focaliser notre étude sur trois groupes des mots :

 

France / Europe / Monde : rapport d’opposition dans le discours ?

                                           La homogénéité de fréquence dans le discours.

                                           Nouveaux sens ? détournements ?

                                           Utilisation stratégique ?

 

Sécurité / emploi / santé / éducation :    Fréquence dans le discours 

                                                               Utilisation stratégique ?

                                                               Contexte.

 

je / Je / nous / nous :    Contexte

                                     Fréquence dans le discours.

                                     Emploi stratégique.

 

                                      

PREPARATION DU CORPUS « CAMPAGNE2002 »

Préparation du corpus :

Le corpus analysé a été constitué à partir des pages d’accueil des sites de campagne pour l’élection présidentielle 2002.  Il a été traité* de la manière suivante :

 

- Première étape :  Aspiration des pages d’accueil des différents sites.

 

- Deuxième étape : Stockage.

 

- Troisième étape : Normalisation des pages aspirées à l’aide de la chaîne de   

  traitement  TYPEWEB. 

  (cf :http://www.cavi.univparis3.fr./ilpga/ilpga/sfleury/typeweb.html)

 

  A l’issue de cette étape on dispose des éléments suivants :

 

  Pour chaque journée :

Un corpus XML regroupant l’état normalisé de toutes les pages.

Un corpus XML regroupant des états statistiques de toutes les pages.  

 

  Pour l’ensemble des jours traités :

Un corpus chronologique regroupant toutes les journées, ce corpus a été construit   pour être directement analysable avec Lexico 3.

Un corpus regroupant les contenus des balises META de toutes les pages HTM Initiales.

 

- Quatrième étape :  Documentation du corpus.

 

- Cinquième étape : Préparation du corpus pour l’analyse avec Lexico.

 

 

 

*Le travail de préparation du corpus a été fait par Monsieur Serge Fleury.

 

 

 

PRESENTATION DU CORPUS « CAMPAGNE 2002 »AVEC LEXICO 3.

 

    Après d’avoir intégrée dans le repertoire-source de lexico 3  les données du corpus « campagne 2002 » nous avons procédé à une analyse des différentes paramètres lexicomètriques.

Nous avons extrait du corpus  « Campagne2002 », les pages des trois candidats qui nous intéressaient particulièrement pour  notre analyse.  Cependant voici quelques informations sur la totalité du corpus qui nous permettront de faire une petite introduction à Lexico 3.   

 

DELIMITEURS UTILISES

 

Lexico 3 propose par défaut une série de délimiteurs à laquelle on a ajouté un autre délimiteur de forme :  "  #  " (pour :                   )

 

PARAMETRES LEXICOMETRIQUES GENERAUX.

*

 

- * Le corpus « campagne 2002 » est constitué de :

207761 suites de caractères non-délimiteurs .

8794 occurrences composées strictement des mêmes caractères non-délimiteurs d’occurrence.

Une forme (la plus fréquente) qui apparaît 9987 fois.

1577 des formes qui n’apparaissent qu’une seule fois.

 

 

OUVERTURE  DE LA BASE « CAMPAGNE 2002 ».

  A l’ouverture de la base  « Campagne 2002chronologique.par *»  avec  LEXICO 3,  on nous propose les textes déjà segmentés.  Nous avons la liste des formes présentes dans le corpus avec leur nombre d’occurrences. Ces textes ont  été segmentés  à l’aide d’une série de délimiteurs dont Lexico qui nous propose une liste par défaut :

DICTIONNAIRES :

a )*Formes en ordre lexicométrique :        b )*Formes en ordre lexicographique :

       

 

*Le fichier « Campagne 2002chronologique.par » contient les principaux décomptes effectués par le programme (formes, occurrences, etc…) ainsi que le rappel des caractères délimiteurs choisis lors de la segmentation.

*Ordre Lexicométrique : portant sur le vocabulaire du corpus.

*Ordre Lexicographique :  Pour les formes graphiques.

 

STATISTIQUES EN PARTIE.

     L’analyse des variations du vocabulaire dans le corpus est structuré de la façon qu' on a segmenté le texte.  Le corpus « Campagne 2002 » a été segmenté en deux partitions : « PAGE » et « date ».

 

 

 

a ) Partition par PAGE :                               b ) Partition par date :

 

   

 

Nous avons donc : une partition qui nous propose le corpus segmenté par PAGE, une pour chaque candidat, 25 au total et une partition segmentée chronologiquement par date (25 jours) du 11 03 2002 au 09 04 2002.

 

Pour chaque partie Lexico 3 propose :

Le nombre d’occurrences : suites de caractères non-délimiteurs .

Le nombre des formes.

Le nombre des formes qui sont présentes qu’une seule fois dans le corpus.

La forme la plus présente dans le corpus et sa fréquence dans le corpus.

Pour chaque partition il y a « un graphique de ventilation » qui nous permet de voir la position d’une forme présélectionnée par rapport au reste du corpus.

Ce graphique peut être obtenu soit par rapport aux fréquences relatives* soit par rapport aux fréquences absolues*.

 

Partition « PAGE » :

                     Graphique de ventilation de la forme «  France » :

 

*Fréquences relatives : la fréquence d’une unité textuelle dans le corpus ou dans l’une de ses parties par  rapport à la fréquence des autres formes dans ces parties.

*Fréquence  absolue : la fréquence d’une unité textuelle dans le corpus ou dans l’une de ses parties par  rapport à la fréquence des autres formes dans tout le corpus.

 

 Partition « date »: Graphique de ventilation de la forme  « France »

 

 

 

Ultérieurement avec l’analyse détaillé d’une partie du corpus nous verrons d’une façon plus approfondie les possibilités de analyse que nous propose ce module.

 

 

LES SEGMENTS  REPETES.

 

  La liste de « Segment répètés* » proposée par Lexico 3, nous donne la possibilité d’approfondir l’analyse des concordances puisqu’elle nous permet d' observer d’une façon plus détaillée l’emploi de certaines formes en relation avec leur contexte.  (Voir analyse des concordances )

*Segment répète : suite des formes dont la fréquence est supérieure à deux dans le corpus.

 

CARTE DE PARAGRAPHES.

   Lexico 3 nous permet de créer une carte des sections, la segmentation se fait à partir des délimiteurs proposés par Lexico qui nous permettent de voir le corpus segmenté par paragraphes, par signes de ponctuation etc.…

 

Avec ce module nous pouvons observer la position  de certaines formes.

Nous pouvons voir la position d’un partie du corpus ou d’une forme par rapport  à l’ensemble du corpus (selon le délimitateur choisi) ou d’une partie déterminée.

 

Section Page : délimitateur #                            Page et Occurrence :

      

 

SELECTION D’UNE PARTIE DU CORPUS.

Pour mieux cibler notre analyse, nous avons décidé de travailler sur trois parties du corpus.

 

a )  Lionel Jospin.

b )  Jaques Chirac.

c )  Conscience-Politique

 

Nous avons choisit ces trois parties parce que leur contenu  présente une diversité qui nous permettra  de développer notre analyse. A partir des trois point de vue qui nous paraissent pertinents en ce qui concerne l’étude lexicographique des quelques termes du discours politique sur le web. (Deux corpus représentants les deux courants politiques majoritaires -Jospin et Chirac- et un troisième, celui de Coscience-politique qui se présente sans étiquette politique)

Pendant  la campagne des élections présidentielles de 2002, le choix et l’utilisation  du vocabulaire dans la stratégie de communication des candidats et des partis politiques a été une fois de plus  au centre de leur préoccupation.

A un moment où le repaire idéologique droite et gauche n’est plus très claire dans la société française, il  nous intéressait de savoir de quelle  façon les candidats  ont placé leur position et leurs propositions  à travers de certains mots dans la structure de leur pages web.

Le métalangage politique a subi des multiples changements au cours de ces 20 dernières années.  Nous  nous sommes intéressées à quelques exemples d'

utilisation et parfois même du détournement sémantique de certains mots. Pour cela nous avons divisé notre recherche en quatre classes sémantiques :

 

Géographie : (France, Europe, monde)

Champ d’activité : (Sécurité, emploi, santé, éducation)

Acteur (je, nous) )

 

A l’aide de Lexico 3 nous allons voir l’utilisation, les contextes partagés et les contextes propres à chacun de ces mots. Ceci n’est pas une tentative de catégorisation, mais une façon d'essayer et de voir plus clairement et de mieux comprendre la structure lexicale de cette forme de communication à travers l’analyse de  ce corpus.

 

                              

NOTRE CORPUS.

Nous avons extrait les parties du corpus qui nous intéressaient, en respectant la segmentation du corpus principal (PAGE, date). Nous avons crée ainsi un corpus 

Avec les trois candidats de notre analyse.

Paramètres lexicometriques et caractéristiques des partitions de notre corpus :

 

 

 

OBSERVATIONS : Le corpus semble assez conséquent puisque avec ces trois parties on réunit la majorité d’occurrences du corpus, cependant il faut observer dans quelle mesure la diversité (les hapax, le nombre des formes….)  du vocabulaire utilisé est pertinente, quand il s’agit de le comparer et d'étudier un mot par rapport à  son contexte et son utilisation.

 

SPECIFICITES DE LA PARTION « PAGE » .

En sélectionnant dans la partition la page,  un des candidats, le module de « Principales caractéristiques de la partition PAGE »  Lexico 3, nous proposons avec le module de « Spécificités par Page » la liste des termes,  la fréquence totale , la fréquence p…. et la spécificité de chaque terme de cette partie.

(voir annexes.     )

                                      

Spécificités  par page:

     

 


> Retour au Perl et XML - Maitrise Tal 2002 <

>>>>>>>>>>