Constitution de corpus électronique et traitements lexicométriques d’un tel corpus

Sommaire :

I Présentation et préparation du corpus

II Analyse du corpus brut sous Lexico3

1 La segmentation

2 La concordance

3 Statistiques par parties

a Graphiques de ventilation

b Tableau des principales caractéristiques lexicométriques

c Les spécificités

4 Modification des partitions

5 La carte des paragraphes

a Le connecteur "de même"

b Le connecteur "de plus"

c Le connecteur "à ce titre"

d Le connecteur "pour ce faire"

III Classification des éléments étudiés

IV Traitement sous MkCorpus

V Traitement du corpus étiqueté

VI Traitement sous Tropes


I Présentation et préparation du corpus

Première étape : aspiration avec le logiciel WinHTTrack du site du parti politique « l’action démocratique québécoise » (http://www.adq.qc.ca).
Parmi les différents fichiers qui constituent le contenu du site aspiré, il y a plusieurs documents au format html, contenant des zones textuelles. Mais le document comportant le plus d’informations textuelles, est un document portant sur le programme du parti. Ce document s’appelle droit.html. C’est donc ce fichier qui sera utilisé pour la constitution du corpus.

 Deuxième étape : Enregistrement du document html, au format texte. Ouverture du nouveau document texte sous un éditeur de texte. On remarque que toutes les zones textuelles sont encadrées par l’ensemble des balises codant le document html. Il est donc nécessaire de faire un nettoyage du document, pour traiter seulement les zones textuelles brutes.
 
Troisième étape : Nettoyage du fichier, et préparation de celui-ci au traitement par Lexico (utilisation de la dernière version de Lexico3 dans ce devoir).
 
Outils utilisés pour effectuer la troisième étape :
 
Adaptation du programme de Harumi Inden pour le traitement de mon corpus.
 
#!/usr/local/bin/perl
 
$file="droit.txt";
 
open (DROIT, $file);
 
@lines=<DROIT>;
 
close (DROIT);
 
open (NEWDROIT, ">corpus.txt");
 
$i=1;
 
foreach $line (@lines) {
 
            chomp($line);
            $line=~s/^$//;
            $line=~s/&nbsp;//g;
           
Ce sont les balises contenant la séquence “H3”, qui sont conservées, et qui vont être utilisées pour délimiter les différentes parties du texte.


            $line=~s/<[^<H3>]*>//g;
            $line=~s/<[^<H3>]*|[^<]*>//;
 
Opération de substitution qui permet d’utiliser ces balises comme délimiteurs :
 
            $line =~ s/H3(>+)[^H4(>+)]/<part=$i>/g
motif de remplacement.

motif qu’il                                      le texte contenait d’autres formes en « h » entre
faut remplacer.                   balises qui ont été conservées, il fallait donc lui demander
                                                     de ne pas les utiliser comme délimiteurs.
 
Il ne faut pas mettre d'espaces dans la séquence <part=$i> pour le traitement
avec lexico.
 
Cette boucle permet de numéroter les parties crées :
 
            if ($line =~ s/H3(>+)[^H4(>+)]/<part=$i>/g) {
                        $i++;   
            }
                       
            print NEWDROIT "$line\n";
           
}
           
           
close (NEWDROIT);
 
Pour l’explication des autres parties de ce programme, je renvoie le lecteur au programme de
Harumi Inden, sur le site tal, dans la partie étudiants TAL (http://www.cavi.univ-paris3.fr/ilpga/ilpga/tal/indexTAL.htm).
 
Note : Les balises <H3></H3> encadre les titres des zones textuelles, dans la version html du corpus, le texte était déjà partionné. Chaque zone de texte composée d’un ou plusieurs paragraphe(s), avait un titre. C’est donc cette structure qui a été reprise dans un premier temps pour partionner le corpus, mais nous verrons par la suite qu’elle nécessite des modifications manuelles.
 
Quatrième étape : Préparation manuelle du corpus (corpus.txt), c’est à dire suppression de certains caractères gênant qui n’ont pas pu être éliminés automatiquement (opération faîte dans un éditeur de texte). Modification de la casse du texte, Lexico impliquant que tout le texte soit en minuscules.
Puis changement également des numérotations des parties 1 à 9, transformées en 01…09. Car sinon l’on peut voir dans les graphiques de ventilation que Lexico classe les parties dans cet ordre : 1, 10, 11,12…..2…..
 
Cette version du corpus n’est pas définitive. En effet les différents tests effectués sous Lexico montreront qu’il est nécessaire de regrouper certaines parties, et d’ajouter des paragraphes.

Retour sommaire


Analyse du corpus brut (non étiqueté) sous Lexico3.
 
Après avoir préparé le corpus pour Lexico de façon automatique (programme perl) et manuelle (suppression de certains caractères sous un éditeur de texte), il s’agit dans cette partie de faire une analyse statistique du corpus grâce à ce logiciel.
 
A travers ces analyses, j’étudierai tout particulièrement la forme « nous », qui est en relation avec mon sujet de mémoire. Je tenterai de montrer comment ces outils permettent de déterminer le comportement sémantique de « nous » dans ce corpus, qui je le rappelle est un texte de nature politique.
 
La segmentation.
 
La première étape de traitement est la segmentation, elle est nécessaire pour utiliser ensuite les autres modules de traitement. Lors de la segmentation le corpus est divisé en mots, qui sont triés par ordre de fréquence.
 
« Nous » fait parti des formes les plus fréquentes dans le corpus, il apparaît 93 fois, ce qui peut paraître peu par rapport à des formes comme « de » (694), mais qui a son importance parmi les formes qui présentent un intérêt linguistique (non sémantiquement vides). 

Retour sommaire

La concordance.

Ce module permet d’observer le contexte textuel d’une forme graphique (analyse à partir d’une des formes graphiques du dictionnaire, produit par le module de segmentation), ou de plusieurs formes graphiques (analyse à partir du fichier produit par le module des segments répétés).
 
Voici un extrait des concordances de « nous » (rappel : 93 contextes) :
 
Note : tri selon l’ordre du texte. Paramétrage : largeur = 40.
 
abris fiscaux et des dépenses fiscales . nous croyons que certains de ceux - ci ne sont 
usiness " illustre bien l ' attitude que nous voulons inculquer à l ' état québécois afin 
épend de plus en plus des exportations , nous nous devons de miser d ' abord et avant 
 de plus en plus des exportations , nous nous devons de miser d ' abord et avant tout 
 abord et avant tout sur les secteurs où nous possédons un avantage comparatif par rapport 
é domestique que sur le marché mondial . nous nous devons d ' être efficaces . pour ce 
estique que sur le marché mondial . nous nous devons d ' être efficaces . pour ce faire 
blis sur ces territoires . à cet égard , nous créerons un guichet unique qui permettra 
es fondations universitaires . de plus , nous entendons favoriser les alliances stratégiques 
s et de nouvelles technologies . enfin , nous mettrons en place des programmes de soutien 
i oeuvrent sur le terrain . en ce sens , nous comptons décentraliser , après consultation 
nomique , culturel et social du québec . nous croyons qu ' il est plus que temps de reconnaître 
, autant au québec qu ' à l ' étranger . nous ferons aussi en sorte que le gouvernement 
 repensé pour une prospérité à retrouver nous croyons que l ' état québécois ne devrait 
 
J’ai sélectionné cet extrait en particulier, car il montre que certaines occurrences de « nous » sont liées à d’autres formes et à d’autres groupes de formes :
 
blis sur ces territoires . à cet égard , nous créerons un guichet unique qui permettra 
es fondations universitaires . de plus , nous entendons favoriser les alliances stratégiques 
s et de nouvelles technologies . enfin , nous mettrons en place des programmes de soutien 
i oeuvrent sur le terrain . en ce sens , nous comptons décentraliser , après consultation 
 
Ainsi une recherche des concordances de certains segments répétés peut être très intéressante dans le cas de « nous » :
 
Note : En général le fichier produit par le module des « segments répétés », peut être utilisé de la même façon que le dictionnaire produit par le module de « segmentation », c’est à dire comme base terminologique pour les autres modules.
 
Exemple d’utilisation : recherche des concordances du segment « en ce sens » :

tervenants qui oeuvrent sur le terrain . en ce sens , nous comptons décentraliser , 
respect des mêmes standards de qualité . en ce sens , nous avons déjà déposé à l ' assemblée 
nsemble économique canadien est réglée . en ce sens , nous croyons que les québécois 
 
Si l’on observe la liste des segments répétés, « en ce sens » apparaît comme un segment indépendant de la forme « nous ». Nous avons en effet la présentation suivante :
 
Lg                    segment                       Frq
3                      en ce sens                    3
 
Mais nous n’avons pas le segment « en ce sens nous ». Cela est peut-être du à la présence de la virgule. On observe le même phénomène concernant d’autres segments répétés comme « de plus », « à cet égard » (…), qui sont également séparés de « nous » par une virgule.
Comme solution à ce problème, il pourrait être envisagé de modifier les délimiteurs de segmentation, et d’en extraire la virgule.
 
Le module des segments répétés a été paramétré de la façon suivante :
 
Délimiteur de séquence : partie.
 
Seuil de sélection des formes : 5.
Seuil de sélection des segments : 2.
 
Note concernant le paramétrage : Certains segments répétés sont intéressants pour l’interprétation sémantique de « nous », mais n’apparaissent que deux fois dans le corpus. Ce qui explique ce paramétrage. Ceux qui apparaissent seulement une fois avec « nous », seront donnés par la recherche des concordances de « nous ».  
 
Quant aux segments répétés composés de la forme « nous », ils sont beaucoup moins pertinents d’un point de vue linguistique.
 
Par exemple concordances du segment « que nous » :
 
esquelles nous nous battons ardemment et que nous mettrons en œuvre lorsque nous formerons 
tribuables ont vécu plusieurs situations que nous jugeons inacceptables . en effet , 
an business " illustre bien l ' attitude que nous voulons inculquer à l ' état québécois 
ettre l ' argent là où c ' est important que nous nous devons d ' agir ainsi . de plus 
inances publiques ont créé des rigidités que nous nous devons de revoir . il n ' y a 
lusieurs éléments faussent la perception que nous avons de l ' état de nos finances publiques 
mandats . élargir notre démocratie parce que nous croyons que , dans une démarche visant 
es font partie intégrante du partenariat que nous souhaitons mettre en place . celles 
on publique et de la bureaucratie de 25% que nous avons fixé , nous entendons couper 
enforceront le québec . c ' est ensemble que nous construirons le québec de demain !
 
Ce « que » ne peut être interprété sémantiquement, il a juste le rôle syntaxique de coordinateur. Cependant deux phrases sont intéressantes parmi ces exemples :
 
élargir notre démocratie parce que nous croyons que , dans une démarche visant
 
Ici nous n’avons plus l’élément « que » tout seul, mais « parce que », qui est certes un élément de liaison mais qui joue en plus un rôle sémantique. Il faudrait élargir le contexte pour voir le rôle de cet énoncé dans le discours, et donc peut-être le référent de « nous ».
 
enforceront le québec . c ' est ensemble que nous construirons le québec de demain !
 
Cet autre exemple montre que certains termes peuvent déterminer le référent de « nous ». C’est le cas de l’adverbe « ensemble », qui élargit la portée de nous au-delà du locuteur.
 
Le module de concordance permet d’observer et d’isoler des phénomènes. Pour vérifier la pertinence de ces phénomènes, il est intéressant d’utiliser le module des statistiques par parties.

Retour sommaire
Statistiques par parties.
 
L’efficacité de ce module dépend de la façon dont on a partitionné son texte, ou plutôt permet de voir si le texte a été bien partitionné (pas trop d’écart de taille entre les parties).
 
Dans le cas du texte de l’action démocratique québécoise les partitions ont été faîtes de façon automatique à partir de la structure du document html, mais l’on peut déjà voir que certaines parties de texte, de très petite taille par rapport aux autres parties, ne sont pas vraiment des « parties » d’un point de vue sémantique.
 
Il est donc à prévoir une modification manuelle des parties. De plus le corpus actuel ne comporte pas de paragraphe. Ce qui ne permet pas pour l’instant d’utiliser le module de « la carte des paragraphes ».
 
Note : ce module se compose de plusieurs parties : un graphique de ventilation et un tableau représentant les principales caractéristiques lexicométriques.

Retour sommaire
 
a Graphiques de ventilation

Voici les résultats de la ventilation de « nous » :
 
Graphique de ventilation par rapport aux différentes parties du texte. Ce graphique peut être obtenu soit par rapport aux fréquences relatives, soit par rapport aux fréquences absolues.
 
On parle de « fréquences relatives » lorsque c’est la fréquence de la forme sélectionnée (ici « nous »), dans les parties où elle apparaît, qui est représentée par rapport à la fréquence des autres formes dans ces parties. On a donc une fréquence relative à chaque partie. Ce qui nous permet de voir si la forme sélectionnée est dominante ou non dans une partie.
 
La fréquence absolue est par contre basée sur l’ensemble du corpus, c’est à dire que si « nous » est plus fréquent dans une partie (sans pour autant être une forme dominante dans cette partie) que dans d’autres, sa fréquence sera plus élevée pour cette partie.
 
Cependant les tailles des parties étant inégales, il paraît plus juste de s’appuyer sur la ventilation par rapport aux fréquences relatives, pour interpréter les données.
 
Vous trouverez cependant une représentation des deux types de fréquence dans ce devoir, car il est toutefois intéressant de les comparer.
 
Observations :
 
Dans le graphique basé sur les fréquences relatives les parties 58 et 72 ont la même fréquence. Alors qu’en terme de fréquences absolues elles sont très éloignées, seule la partie 72 a la fréquence la plus élevée. Ce qui s’explique par une différence du nombre d’occurrences de « nous » dans chacune de ces parties :
 
11 pour la partie 72
5 pour la partie 58
 
Dans le cas de la ventilation en fréquences absolues, on a le nombre réel d’occurrences par partie de la forme sélectionnée.
 
 
En ce qui concerne les autres parties il n’y a pas de très grandes différences entre les fréquences relatives et les fréquences absolues, à part quelques cas. Pour les fréquences relatives des parties 19 à 21 et 33, on peut noter une fréquence plus élevée pour la partie 33. Pour les fréquences absolues de ces mêmes parties, on observe le phénomène inverse.
 

 
 


 
 
En ce qui concerne le tableau représentant les principales caractéristiques lexicométriques, il n’y a pas de surprise le mot qui revient le plus souvent dans une partie est « de ».

Retour sommaire

b Tableau des principales caractéristiques lexicométriques

Principales caractéristiques de la partition : part (rappel : partition par parties seulement).
 

Partie

Nb occurrences

Nb formes

Nb hapax

Fréq. Max

Forme

01

290

164

124

13

et

02

189

117

93

12

de

03

310

169

119

13

de

04

196

117

85

9

de

05

150

104

79

9

de

06

158

101

76

8

de

Note : L’happax représente les formes qui n’apparaissent qu’une seule fois, ici ce chiffre est relatif à chaque partie.

Retour sommaire
     
c Les spécificités.
 
Parties sélectionnées : 33

 
Spécificité positive. Paramétrage : seuil de probabilité = 5 ; fréquence minimale = 10.
 

Forme

Frq. Tot.

Fréquence

Coeff.

citoyens

34

5

5

pouvoir

19

2

2

ci

19

2

2

Résultats surprenant, car si l’on se base sur le graphique de ventilation des fréquences absolues de la forme « nous », on peut voir que la partie 33, contient 3 occurrences de « nous ».
Vérification de ces résultats en utilisant à nouveau le module des concordances pour la forme « nous », mais en demandant cette fois un regroupement par parties de ces concordances :

Partie : 33, Nombre de contextes : 3

, voilà des objectifs ambitieux auxquels nous devons nous attaquer . pour ce faire , nous 

objectifs ambitieux auxquels nous devons nous attaquer . pour ce faire , nous devons accroître 
s devons nous attaquer . pour ce faire , nous devons accroître l ' influence des citoyens 
 
On constate que la partie 33 contient bien 3 occurrences de « nous », comme l’indiquait le graphique de ventilation des fréquences absolues.
 
Cependant après plusieurs modifications du paramétrage, la forme « nous » finit par apparaître (paramétrage –1, 10). Il n’y a pas de présence anormalement élevée (spécificités positives), ni anormalement faible (spécificités négatives), de « nous » dans cette partie, par rapport aux autres parties.
 
 
Spécificité positive. Paramétrage : seuil de probabilité = 5 ; fréquence minimale = 10.
 

Parties sélectionnées : 72
 

Forme

Frq. Tot.

Fréquence

Coeff.

nous

93

11

6

québec

81

8

4

qui

87

7

3

ensemble

11

2

2

croyons

14

2

2

Ceci confirme ce qui a été vu sur le graphique de ventilation en fréquences absolues. La forme « nous » est bien une des formes anormalement présentes dans cette partie.
Par ailleurs les concordances de « nous » présentées précédemment ont montrées que certains termes déterminaient l’interprétation sémantique de « nous ». Nous avons retenu deux catégories : les connecteurs et les quantificateurs adverbiaux .
 
Or ces résultats montrent qu’il y aurait une troisième catégorie avec le terme « ensemble », qui est certes un adverbe mais qui n’est pas un quantificateur. Cependant il joue dans ce cas le même rôle qu’un quantificateur adverbial.
 
Observons ainsi les concordances de « nous » dans la partie 72 :  
 
Partie : 72, Nombre de contextes : 11


ttront de remettre le québec en marche . nous croyons en ces idées et nous sommes déterminés 
en marche . nous croyons en ces idées et nous sommes déterminés à faire en sorte que celles 
orte que celles - ci soient appliquées . nous croyons en des valeurs telles le travail 
entraide , la justice et l ' intégrité . nous voulons les remettre à l ' avant - plan 
vant - plan de la politique québécoise . nous voulons diminuer le fardeau fiscal qui étouffe 
ulièrement , ceux de la classe moyenne ; nous voulons créer au québec un véritable climat 
 affaires et à la création d ' emplois , nous voulons revoir le rôle de l ' état québécois 
ois et la façon dont il est administré ; nous voulons investir dans notre système d ' 
té de première qualité . pour ce faire , nous avons besoin de l ' appui des québécois 
 sur le québec un vent de changement qui nous fera entrer de plain - pied dans le prochain 
rceront le québec . c ' est ensemble que nous construirons le québec de demain ! le chef  
 
« Ensemble » étend le référent de « nous » à un groupe plus large que celui du parti de l’action démocratique du Québec, ce sont tous les québécois qui sont concernés, tous ceux qui souhaitent reconstruire le Québec. Mais ceci reste une hypothèse, il faudra par la suite augmenter la largeur du contexte, afin de délimiter plus précisément le référent de ce « nous ». D'autre part la construction clivée met en valeur les informations sémantiques apportées par le terme "ensemble".
 
Maintenant si l’on observe les spécificités de la partie 58, on voit que « nous » fait certes parti des termes anormalement présents dans cette partie, mais que son nombre d’occurrences est beaucoup moins élevé que dans la partie 72 (environ la moitié). Ce qui confirme l’explication précédente concernant la différence entre les fréquences relatives et les fréquences absolues.
 
Même paramétrage que pour la partie 72.
 
Parties sélectionnées : 58
 

Forme

Frq. Tot.

Fréquence

Coeff.

nous

93

5

3

assurer

27

2

2

même

24

2

2

un

180

5

2

d

235

6

2


On remarque la présence du terme « même », qui associé à la préposition « de », forme le connecteur « de même », qui permet d’établir un lien sémantique avec ce qui le précède et  joue ainsi un rôle dans l’interprétation sémantique de « nous ».
Nous allons observer les contextes de « nous », dans la partie 58 afin de voir si le connecteur « de même » est effectivement employé dans cette partie.
 
Partie : 58, Nombre de contextes : 5

d ' études collégiales . pour ce faire , nous devons d ' abord nous assurer que chaque 
 . pour ce faire , nous devons d ' abord nous assurer que chaque étudiant diplômé d ' 
académique comparable . c ' est pourquoi nous entendons effectuer un sérieux ménage dans 
 offerts à ce niveau . de même , afin de nous assurer de l ' uniformité des diplômes décernés 
ômes décernés d ' un cégep à l ' autre , nous mettrons en place , au secteur général , 
 
Observations :
 
Parmi les deux occurrences de « même » dans cette partie, données par le tableau des spécificités, on voit qu’il y a une occurrence de « de même » dans une phrase contenant le pronom « nous ».
 
On remarque également que la plupart des phrases contenant « nous » dans cette partie, sont introduites par un connecteur. Alors que dans la partie 72, qui contient plus d’occurrences de la forme « nous », seulement un seul connecteur est employé (« pour ce faire »).
 
Cependant de la même façon que certains termes se comportent comme des quantificateurs adverbiaux, sans avoir le statut sémantique de quantificateur, on trouve dans la partie 72, des éléments qui fonctionnent comme un connecteur, sans pour autant appartenir aux classes de connecteurs (définies par D.Maingueneau et C.Rossari).
 
Dans la phrase suivante (partie 72) :
 
nous croyons en ces idées et nous sommes déterminés à faire en sorte que celles - ci soient appliquées.
 
La première proposition « nous croyons en ces idées » marque un lien sémantique avec ce qui la précède, on fait référence à ce qui a déjà été dit, ce qui est également marqué par l’emploi du démonstratif « ces ».
 
Ainsi cette séquence semble fonctionner comme un connecteur, avec cependant des propriétés syntaxiques et sémantiques différentes, en raison du phénomène de coordination.
 
On peut également noter que la partie 72 est la dernière partie du corpus, tous les arguments concernant les idées politiques énoncées, ont déjà été donnés.
Cette partie est une sorte de conclusion, ce qui explique la présence de peu de connecteurs.

Retour sommaire

Modification des partitions :
 
-insertion de paragraphes ;
-regroupement de certaines parties (certaines étaient de taille trop inégale par rapport aux autres parties, ainsi elles ont été rattachées à ces parties en tant que paragraphe).
 
Ces modifications vont maintenant nous permettre d’utiliser le module de la carte des paragraphes.

Retour sommaire

La carte des paragraphes :
 
Ce module nous permet de voir quels paragraphes (choix du paragraphe comme délimiteur) contiennent la forme sélectionnée. On peut sélectionner plusieurs formes, ce qui sera le cas pour l'étude des paragraphes contenant un connecteur et le pronom "nous".

Ce module permet de voir le rôle joué par un connecteur dans le paragraphe concerné. Le contexte est beaucoup plus élevé et surtout mieux délimité que dans le module des concordances. C’est ce module qui sera utilisé pour analyser le comportement discursif des connecteurs introduisant le pronom sujet « nous » (que l’on connaît déjà grâce au module de recherche des concordances de « nous » dans le corpus).

Retour sommaire

a Le connecteur "de même"
 
La forme nous 
 
La forme même




Il est maintenant intéressant d’aller voir le contenu des paragraphes dans lesquels les formes « nous » et « même » apparaissent en même temps.
 
Section 90

<paragraphe=2>renforcer la crédibilité du diplôme d ' études collégiales pour l ' adq , il est essentiel de renforcer la crédibilité du diplôme d ' études collégiales . pour ce faire , nous devons d ' abord nous assurer que chaque étudiant diplômé d ' une même concentration ait un cheminement académique comparable . c ' est pourquoi nous entendons effectuer un sérieux ménage dans la banque de cours offerts à ce niveau . de même , afin de nous assurer de l ' uniformité des diplômes décernés d ' un cégep à l ' autre , nous mettrons en place , au secteur général , un examen synthèse qui mesurera , à la sortie du collégial , les connaissances fondamentales qu ' un étudiant devra avoir acquises avant d ' aller à l ' université . <part=40>  
 
Sur l’ensemble des contextes relevés par le module de la carte des paragraphes, seul ce contexte est pertinent pour analyser les relations entre le connecteur « de même » et la forme « nous ».
 
Les autres occurrences de « de même » qui ont été données par le module, servent surtout de terme introducteur pour des phrases ayant « l’action démocratique québécoise » pour sujet (ces contextes seront peut être intéressants par la suite, c’est-à-dire une fois que nous auront déterminé leur comportement par rapport à la marque de personne « nous »).
 
L’interprétation sémantique de « de même » comme pour celles de la plupart des connecteurs qui seront étudiés dans ce corpus, a probablement du être très peu étudiée, pour l’instant les analyses de connecteurs sur lesquelles nous nous appuierons, ne les traitent pas.
 
D.Maingueneau par exemple décrit le comportement du connecteur « même », mais pas celui de « de même ».
Elle définit le connecteur « même » comme ayant pour « fonction de présenter ce sur quoi il porte comme un meilleur argument que le précédent. Elle indique que « si celui-ci est suivi de « d’ailleurs » celui-ci vient renforcer l’idée exprimée par « même » ».
 
L’emploi de « de même » ne présente pas de correspondance avec celui de « même ». Il semble dans le paragraphe de la section 90, à la fois reprendre une idée et apporter des informations nouvelles.

Retour sommaire

Application de ce module aux autres connecteurs :
 
Mais travail cette fois-ci directement à partir de la liste des segments répétés (dans la carte précédente il fallait rechercher les contextes de « de même », parmi ceux qui liés « nous » et « même »).

b Le connecteur "de plus"

Carte des paragraphes contenant le segment répété « de plus » et le pronom « nous » :
 
De plus 
 
Nous 

Il y a plus de contextes qui correspondent bien sûr, mais pas tous, « de plus » peut être inclu dans des segments plus longs comme « de plus en plus », qui n’est pas un connecteur.
 
Dans cette analyse, le comportement du connecteur « de plus » sera rapproché de celui de « d’ailleurs », étudié par Dominique Maingueneau dans « Analyse du discours » (1987).
 
L’étude du connecteur « d’ailleurs » est la suivante :
 
Soit une conclusion R :
 
P®R ensuite Q®R
 
Après avoir donné un argument P qui implique une conclusion R, le locuteur ajoute un argument Q, qui va dans le même sens que P.
L’argument Q est donné comme non nécessaire à l’argumentation, c’est-à-dire que le locuteur ne prétend pas fonder son raisonnement sur lui.
 
Cependant le comportement de « de plus » n’est pas complètement similaire à celui de « d’ailleurs ». L’argument apporté par « de plus » ne semble pas être non nécessaire à l’argumentation, le locuteur semble aussi s’appuyer sur cet argument pour construire son raisonnement.
Il y a énumération d’arguments, et « de plus » marque un ajout, ce qui permet de l’associer au comportement du connecteur « d’ailleurs », c’est qu’il implique la même conclusion que l’argument qui le précède.
 
Analyse des contextes pertinents :

Section 25

<paragraphe=2>à ce titre , l ' adq entend mettre en place des incitatifs fiscaux supplémentaires afin de favoriser une participation des entreprises dans les fondations universitaires . de plus , nous entendons favoriser les alliances stratégiques entre entreprises en vue de développer conjointement de nouvelles connaissances et de nouvelles technologies . enfin , nous mettrons en place des programmes de soutien au transfert des connaissances scientifiques détenues par les institutions universitaires et collégiales vers les entreprises . <part=14>
 
L’interprétation de “de plus” comme connecteur introduisant un ajout dans l’argumentation du locuteur, est renforcée par la présence du connecteur « enfin ». C.Rossari dans « Les opérateurs de reformulation » définit « enfin » comme un connecteur temporel marquant soit :
 
-le terme d’une série d’états de choses,
-soit indique le terme d’une séquence d’actes discursifs.
 
Note : Cet emploi est également décrit par Turco et Coltier (1998) comme « marqueur d’intégration linéaire » (MIL), tel que « d’une part », « d’autre part », « premièrement », « deuxièmement » etc. Il est ainsi décrit comme un « marqueur servant de balise pour signaler la manière dont s’organisent les différents actes discursifs ».
 
« La fonction de « enfin » connecteur temporel se limite donc à indiquer que le point de vue introduit marque le terme, soit d’une série d’états de chose auquel cas « enfin » peut véhiculer une valeur de soulagement, soit d’une série d’actes discursifs » (C.Rossari « les opérateurs de reformulation »).
 
Dans ce paragraphe « enfin » ne marque pas la fin « d’une série d’états de chose », mais bien « le terme d’une séquence d’actes discursifs », dont l’argument introduit par l’opérateur « de plus » fait parti.
 
L’opérateur « de plus » marque un ajout, un élément supplémentaire parmi une série d’éléments, mais permet également une continuité sémantique. Dans ce paragraphe, le référent du pronom « nous » peut être déterminé, il s’agit de « l’adq », on suppose que ce « nous » n’inclut pas l’interlocuteur (ou plus particulièrement les québécois).
 
Un autre élément confirme cette analyse : le verbe de la proposition introduite par « de plus ».
En effet le verbe « entendre » est à la fois employé avec « l’adq » et avec « nous », il y a une continuité sémantique et syntaxique.
 
En référence à l'analyse d'Annie Geffroy, dans la revue "Mots", nous déterminerons que les occurrences de "nous" dans ce paragraphe désignent un « locuteur collectif », le parti politique (l'adq). Ce discours est réalisé dans un contexte électoral, ce sont les idées d'un groupe politique qui sont exprimées.
 
Section 35

<paragraphe=3>un gouvernement de l ' adq verrait donc à éliminer un certain nombre d ' organismes qui ne font pas partie de la mission essentielle de l ' état . évidemment , des mesures de transition pour le personnel affecté devront accompagner une telle réduction . l ' adq ne cherche pas à couper pour couper . nous voulons réduire la taille de l ' état en coupant dans la bureaucratie et les structures et non pas dans les services aux citoyens offerts dans les écoles ou les hôpitaux . c ' est pour avoir les moyens , en tant que collectivité , de mettre l ' argent là où c ' est important que nous nous devons d ' agir ainsi . de plus , l ' adq entend faire preuve de cohérence dans la gestion de l ' état . ainsi , nous nous assurerons que des outils importants , tels les systèmes informatiques , soient harmonisés , qu ' aucun édifice neuf ne soit construit si un édifice gouvernemental actuel peut être utilisé et que le découpage administratif régional soit logique entre les différents organismes et ministères . <part=18>

 
Ici l’opérateur « de plus » s’inscrit également dans un principe d’énumération. Le sujet de la proposition introduite par « de plus », est par contre « l’adq » et c’est l’opérateur introduisant la phrase suivante dont le sujet est « nous », qui permet de faire le lien entre les deux sujets. C’est le connecteur « ainsi ».
 
Ce connecteur est décrit par D.Maingueneau comme appartenant à la catégorie des « connecteurs de consécution » ou « illustratifs ».
Dans le premier cas, il y a « un rapport de moyen à fin », « de causalité », « de raison à conséquence ». Dans le second cas il a une valeur illustrative, métaphorique.
 
Ici « ainsi » a une valeur consécutive, il y a un rapport de « moyen à fin » avec la proposition introduite par « de plus ».  
Dans ce paragraphe, la proposition contenant « de plus » exprime une « fin », un objectif, et la proposition contenant « ainsi » exprime le « moyen » voire les moyens de réalisation de cet objectif. Dans cette seconde proposition c’est le pronom « nous » qui est sujet. Le lien sémantique entre « l’adq » et le pronom « nous » est mis en relief par le connecteur « ainsi ».
On a donc ici aussi un « locuteur collectif ».
 
Section 36
 
<paragraphe=1>le processus de préparation du budget des dépenses du gouvernement ( les crédits ) doit lui aussi être revu . l ' adq veut instaurer la " budgétisation à base zéro " . par ce principe , le budget alloué à un ministère , un organisme ou un programme n ' est pas défini en fonction du budget de l ' année précédente , mais plutôt en fonction de ses besoins réels , et ce , à la suite d ' une réévaluation périodique . de plus , parce que les programmes temporaires doivent le demeurer , nous instaurerons la pratique des clauses crépusculaires , qui équivaut à accoler à chacun de ces programmes une " date d ' expiration " après laquelle ils seront remis en question . §
 
Dans ce paragraphe, la proposition introduite par « de plus » est surtout liée à une autre proposition interne de la phrase, la proposition introduite par « parce que », il y a un rapport de causalité.
L’on peut constater ici que le connecteur « de plus », n’établit pas seulement un lien avec ce qui le précède, mais peut aussi être lié à un élément interne de la phrase où il apparaît.
Il y a par contre toujours un lien avec ce qui précède, ce qui nous permet à nouveau de poser une relation identitaire entre « l’adq » et la marque de la première personne du pluriel (« locuteur collectif »).
 
Section 62
 
<paragraphe=1>le système de financement des partis par l ' état - indispensable dans le contexte du financement populaire des partis politiques - doit aussi être revu . au fil des années , le parti libéral et le parti québécois ont modifié la loi électorale pour se donner des avantages financiers à même les contributions que verse l ' état aux partis politiques . ces avantages favorisent ces deux partis et nuisent à l ' émergence d ' autres formations . un gouvernement de l ' adq modifiera la loi électorale afin de rendre équitable le financement des partis politiques . nous mettrons fin aux avances accordées aux candidats sur le remboursement des dépenses électorales , en la remplaçant par une formule basée , de façon proportionnelle , sur le nombre de votes obtenus . de plus , nous abolirons la rémunération versée à même les fonds publics aux représentants des partis politiques le jour du scrutin . §
 
La relation entre « l’adq » et le pronom sujet « nous » de la proposition introduite par « de plus », est plus distante, la proposition introduite par « de plus » est liée à la proposition qui la précède, c’est ici seulement le contenu sémantique des phrases et non les connecteurs utilisés qui permet d’établir un lien entre « l’adq » et le pronom « nous » (« locuteur collectif »).
 
Section 66
 
<paragraphe=3>l ' adq entend donc resserrer les règles de l ' assemblée nationale afin que l ' autorité du président soit respectée en tout temps . de plus , afin d ' accroître leur autorité et leur indépendance face au pouvoir exécutif , nous ferons en sorte que l ' élection le président et les vice - présidents de l ' assemblée nationale ainsi que les présidents des commissions parlementaires permanentes soient élus au scrutin secret . <part=30>nominations : compétence plutôt que partisanerie §
 
L’interprétation du connecteur « de plus » dans ce paragraphe est similaire à celle donnée dans la section 36, de même que celle du pronom « nous ».
 
Section 96

 
<paragraphe=2>étant préoccupée par la rentabilité maximale de chaque dollar versé par les contribuables , l ' action démocratique du québec croit qu ' il est de notre responsabilité de s ' assurer que ces ressources soient engagées de la façon la plus efficiente possible . à cette fin , nous croyons pertinent de revoir les modes de rémunération des médecins , notamment le paiement à l ' acte , et de limiter le phénomène de la double facturation ou de la répétition de certains services en introduisant une carte d ' assurance - maladie dotée d ' un microprocesseur . de plus , nous comptons mieux responsabiliser les usagers en mettant en place une franchise sur les soins de santé payable à même la déclaration de revenus et en envoyant périodiquement à chaque citoyen majeur un relevé des frais médicaux qu ' il a engendrés . cela pourrait se faire , par exemple , au moment du renouvellement de la carte d ' assurance - maladie . <part=43>utiliser la sous - traitance pour les services non médicaux §
 
Dans la première phrase du paragraphe, l’on constate la présence du possessif « notre », mais dans ce contexte le possesseur semble concerner un groupe plus large que « l’action démocratique du Québec », sinon c’est le possessif « sa » qui aurait été employé. C’est cette irrégularité qui a attiré notre attention. D’ailleurs l’on pourrait imaginer un repérage automatique de telles irrégularités, en vue d’interprétation pseudo-sémantique.
Le groupe désigné par la séquence « notre responsabilité » paraît inclure le contribuable, qui en choisissant « l’adq » prend la responsabilité de contrôler l’utilisation de l’argent qu’il verse.
Cependant le pronom personnel « nous » ne réfère pas dans la suite du paragraphe au contribuable mais seulement à « l’adq », une fois encore les connecteurs permettent de relier les sujets syntaxiques et sémantiques.
 
Le connecteur « de plus » a pour fonction ici aussi d’ajouter une information dans une série d’actes discursifs.
 
Dans toutes les sections étudiées, « de plus » ne semble pas avoir réellement d’interprétation sémantique, il semble plutôt se comporter comme un opérateur avec une fonction d’ajout. Nous le caractériserons dans le tableau des classifications sous la dénomination de « connecteur d’énumération » (terminologie qui n’est pas définitive).

Retour sommaire

 c Le connecteur "à ce titre"

Carte des paragraphes contenant le segment répété « à ce titre » et le pronom « nous » :

 
A ce titre
 
Nous
 
Sur les deux paragraphes dans lesquels le segment « à ce titre » apparaît, il n’y a qu’un paragraphe où « nous » est aussi employé.
 
Il faut observer le paragraphe précédent (section précédente) pour voir ce qui est repris par le connecteur « à ce titre ». Mais nous attendrons d’avoir plus d’informations sur les connecteurs, pour l’analyser.
 
Section 25
 
<paragraphe=2>à ce titre , l ' adq entend mettre en place des incitatifs fiscaux supplémentaires afin de favoriser une participation des entreprises dans les fondations universitaires . de plus , nous entendons favoriser les alliances stratégiques entre entreprises en vue de développer conjointement de nouvelles connaissances et de nouvelles technologies . enfin , nous mettrons en place des programmes de soutien au transfert des connaissances scientifiques détenues par les institutions universitaires et collégiales vers les entreprises . <part=14>donner du pouvoir aux régions §
 
Par ailleurs on constate que c’est le parti « l’adq » qui est introduit par ce connecteur. Ce paragraphe a déjà été étudié pour les contextes du connecteur « de plus ».

Retour sommaire

d Le connecteur "pour ce faire"

Carte des paragraphes contenant le connecteur « pour ce faire » et le pronom « nous » :




Pour ce faire
 
Nous
 
Seuls les paragraphes pertinents pour l’analyse de la relation entre les connecteurs et la marque de première personne du pluriel sont relevés.
 
On peut déjà noter que ce connecteur a une structure particulière, il a un déplacement de l'objet qui est placé avant la base verbale. En effet on s'attendrait plutôt la tournure suivante :
 
"Pour faire cela"
 
On a une locution figée, qui peut être difficilement modifiée, ce que montrent les tests suivants :
 
Pour bien faire cela
? Pour faire bien cela
Pour ce *bien faire
Pour *bien ce faire
 
Cette dernière séquence montre que l'impossibilité d'insérer un autre élément ne concerne pas que la relation entre "ce" et "faire". La séquence "pour ce faire" forme un tout, un ensemble d'éléments que l'on ne peut séparer les uns des autres.
 
Il semble cependant malgré son comportement syntaxique différent, conserver la même interprétation sémantique que la séquence "pour faire cela".
 
Son comportement peut être comparé à celui du connecteur "ainsi" dans sa valeur consécutive, exprimant un rapport de moyen à fin (D. Maingueneau, Analyses du discours, 1987).
 
Section 52


<paragraphe=1>s ' assurer que nos institutions démocratiques sont le reflet de la volonté des citoyens et restaurer la confiance envers celles - ci , voilà des objectifs ambitieux auxquels nous devons nous attaquer . pour ce faire , nous devons accroître l ' influence des citoyens sur la conduite des affaires de l ' état . à cette fin , il faut revoir les mécanismes actuels . §
 
Par l'emploi du connecteur "pour ce faire" le locuteur fait référence au but qu'il a exprimé précédemment, mais indique également qu'il va énoncer les moyens nécessaire pour y parvenir.
 
Le connecteur "pour ce faire" pourrait ainsi être classé parmi la catégorie des connecteurs de consécution, "donc, alors, ainsi" définis par D.Maingueneau.
 
Recherche du référent de nous, et classification de ce pronom :
 
Ce « nous » correspond ici au « locuteur collectif ».
 
De plus on peut clairement voir dans ce paragraphe que le pronom "nous", ne peut pas inclure "les citoyens" dans le groupe qu'il désigne. Dans les phrases de ce paragraphe employant "nous", on trouve également le groupe "les citoyens", ce qui distingue l'entité socio-politique à laquelle "nous" réfère, des "citoyens".
 
Section 87
 
<paragraphe=1>dans les prochaines années , le québec aura de plus en plus besoin d ' une main - d ' œuvre qualifiée afin de demeurer compétitif . pour ce faire , nous croyons que le gouvernement se doit de prendre des mesures concrètes afin de développer le secteur de la formation professionnelle tant au secondaire qu ' au collégial . l ' adq croit en la valeur de véritables stages en milieu de travail pour améliorer la qualité de la formation . §
 
Dans ce paragraphe le connecteur "pour ce faire" conserve la même interprétation. Nous classerons également le pronom "nous" dans la catégorie des locuteurs collectifs.
 
Une fois encore il y a une relation identitaire entre "nous" et "l'adq". Le verbe "croire" est utilisé à la fois avec "nous" sujet, puis avec "l'adq" à la fin du paragraphe.
 
Section 90
 
<paragraphe=2>renforcer la crédibilité du diplôme d ' études collégiales pour l ' adq , il est essentiel de renforcer la crédibilité du diplôme d ' études collégiales . pour ce faire , nous devons d ' abord nous assurer que chaque étudiant diplômé d ' une même concentration ait un cheminement académique comparable . c ' est pourquoi nous entendons effectuer un sérieux ménage dans la banque de cours offerts à ce niveau . de même , afin de nous assurer de l ' uniformité des diplômes décernés d ' un cégep à l ' autre , nous mettrons en place , au secteur général , un examen synthèse qui mesurera , à la sortie du collégial , les connaissances fondamentales qu ' un étudiant devra avoir acquises avant d ' aller à l ' université . <part=40>la transparence dans la gestion de nos universités §
 
"Pour ce faire" marque ici nettement le lien sémantique entre "l'adq" (sujet de la phrase précédente) et "nous".
 
D'autre part dans la phrase précédente, le point de vue énoncé est présenté comme étant seulement celui de "l'adq" :
 
"Pour l'adq, il est essentiel (…)" or par la liaison à la phrase suivante faîte par le connecteur "pour ce faire" ce point de vue est posé comme une opinion partagée par l'occurrence "nous". Il y a une relation d'équivalence. 
 
Section 94
 
<paragraphe=2>un gouvernement de l ' action démocratique du québec verra à assumer cette responsabilité en continuant à favoriser les immigrants s ' exprimant d&amp ; eacute ; jà en français tout en mettant à leur disposition des outils qui leur permettront de s ' intégrer facilement à notre communauté . pour ce faire , nous entendons , entre autres , reconnaître la compétence des maisons de première ligne , tels les cofi , en continuant à les soutenir financièrement tout en leur offrant un accompagnement adéquat . il va sans dire qu ' un gouvernement de l ' adq assumera aussi ses responsabilités en voyant à analyser rapidement les demandes des réfugiés . <part=42>santé : les moyens pour offrir des services de qualité §
 
L’analyse du connecteur « pour ce faire » et du référent du pronom « nous » est similaire à celle de la section 90.
 
« Pour ce faire » : connecteur de consécution.
« Nous » : désigne un locuteur collectif.
 
Section 101
 
<paragraphe=2>une vraie décentralisation il est évident que pour effectuer leur travail , ces autorités locales auront besoin de ressources financières . pour ce faire , nous leur confierons une responsabilité dans l ' attribution de ressources actuellement dévolues aux régies régionales et aux départements de santé publique . il faut éviter à tout prix de calquer ce qui est arrivé aux régies régionales à leur naissance . alors qu ' elles devaient permettre une gestion plus adaptée aux besoins des régions , on a plutôt ajouté un palier supplémentaire de bureaucratie puisque cette " décentralisation " n ' a pas entraîné de diminution d ' effectifs au ministère de la santé et des services sociaux à québec . l ' adq s ' engage , d ' ailleurs , à redéployer ces ressources vers le bas , c ' est - à - dire vers les établissements qui donnent des soins . <part=45>les budgets gérés par les régions §
 
Ici même chose pour le connecteur « pour ce faire », mais faire le lien entre « l’adq » et le pronom « nous » est plus difficile. Il faut analyser les connecteurs qui se trouvent dans les phrases suivantes :
« Alors qu’ » et « d’ailleurs ». Cette section sera reprise plus tard, au moment de l’étude de ces connecteurs.

 
Section 106
 
<paragraphe=2>nous voulons diminuer le fardeau fiscal qui étouffe les contribuables québécois et , plus particulièrement , ceux de la classe moyenne ; nous voulons créer au québec un véritable climat propice aux affaires et à la création d ' emplois , nous voulons revoir le rôle de l ' état québécois et la façon dont il est administré ; nous voulons investir dans notre système d ' éducation et assurer à nos concitoyens des services de santé de première qualité . pour ce faire , nous avons besoin de l ' appui des québécois et québécoises qui , comme vous , veulent changer les choses , qui veulent travailler à bâtir un québec meilleur . en appuyant l ' adq , vous ferez souffler sur le québec un vent de changement qui nous fera entrer de plain - pied dans le prochain millénaire . en joignant l ' adq , vous participerez directement à la mise en place des éléments qui constituent ce vent de changement et qui renforceront le québec . c ' est ensemble que nous construirons le québec de demain !
 
Le connecteur « pour ce faire » joue le même rôle que dans les sections 90 et 94, on peut également définir « l’adq » comme seul référent des occurrences de « nous », à l’exception de la dernière qui est nuancée par la construction clivée : « c’est ensemble que (...) » qui inclut l’autre groupe évoqué plus haut « les québécois, qui veulent changer les choses (…) », et qui pour y parvenir rejoindront « l’adq » : « en appuyant l’adq (…) », « en joignant l’adq (…) ».
 

Le « nous » employé dans cette dernière construction, correspond à ce qu’Annie Geffroy (article de la revue « Mots ») appelle le nous « idéologique ou partisan ». Tentative de réunion d’individus dans une communauté d’idées, et non par rapport à une situation statuaire, puisque les individus concernés ne sont pas membres du parti. 

 

Tout au long du paragraphe, le pronom « nous » et « l’adq » s’adressent au même groupe : celui formé par le pronom « vous », qui ne désigne cependant pas tous les citoyens, mais seulement ceux « qui veulent changer les choses », « en joignant l’adq ».

 

On peut aussi noter que c’est la proposition relative qui permet de déterminer une restriction sur le groupe concerné, en attribuant une propriété particulière à celui-ci.

Retour sommaire

III Commencement d’une classification en fonction des sections étudiées :
 
Progressivement nous arrivons à la constitution d'un sous-corpus des énoncés en "nous" et il convient de classer ces contextes.
 
Remarque :

Ces principes identitaires, relations d'équivalence, entre le pronom "nous" et "l'adq", posés par les connecteurs, nous conduisent à attirer l'attention du lecteur sur le fait que le nombre d'occurrences de "l'adq" qui a été comptabilisé n'est plus tout à fait exact, si l'on considère les analyses précédentes.


Sections

Type de « nous »

   Structures
  particulières
 

Type de connecteur

25, 36, 62, 66, 96

locuteur collectif 

 

Connecteur d’énumération « de plus »

35

locuteur collectif 

 

Connecteur de consécution « ainsi »

52, 87, 90, 94,
101, 106

locuteur collectif

 

Connecteur de consécution « pour
ce faire »

106

Partisan ou
idéologique

Construction clivée
« c’est ensemble »

 

Retour sommaire

IV Traitement sous MkCorpus.
 
La recherche des concordances sous MkCorpus est similaire à celle faîtes sous Lexico3, ce n’est donc pas ce module qui va être utilisé pour le traitement des données sous MkCorpus.
 
Le module de statistique permet d’avoir une idée de la composition globale du corpus :
 
Your file contains 1192 lines and 10631 words
 
The average word length is 5.63
 
The 10 most popular words were:
de (694 times)
la (304 times)
les (293 times)
des (283 times)
le (251 times)
et (251 times)
à (244 times)
en (183 times)
du (148 times)
un (146 times)
que (143 times)
 
The 10 most popular word lengths were:
2 (2293 words)
3 (1404 words)
4 (1062 words)
5 (823 words)
7 (821 words)
6 (807 words)
8 (785 words)
9 (689 words)
10 (490 words)
11 (360 words)
12 (329 words)
 
Ces chiffres sont donc relatifs à l’ensemble du texte, il n’y a pas de partitionnement comme sous Lexico3.
 
Retour sommaire

V Traitement du corpus étiqueté sous Lexico3.
 
Le corpus a d'abord été étiqueté sous Cordial. Le paramétrage de l'étiquetage a été fait avec très peu d'options, seulement les lemmes et les catégories grammaticales ont été demandés.
 
Ce fichier a ensuite été soumis à Lexico3, et on peut voir ainsi quelles sont les catégories grammaticales qui sont les plus fréquentes. Dans le cas des formes comme "nous" et les "adverbes" qui jouent un rôle de "connecteur", il n'y a pas d'ambiguïté concernant la catégorie grammaticale, cependant dans le cas des adverbes il est difficile de savoir quels sont les termes qui ont été considérés comme appartenant cette catégorie.
 
Cependant une étude du corpus étiqueté n’est pas très intéressante pour mon mémoire, car chaque mot est étiqueté séparément, puis ensuite il y a un étiquetage des groupes syntaxiques si on le souhaite, mais des groupes syntaxiques et pas des groupes de mots qui forment en fait un mot (c’est à dire un élément avec un sens, une nature et un rôle syntaxique).
 
Les connecteurs forment en effet des segments (des groupes de mots), que cordial ne pourra pas étiqueter. 
 
Retour sommaire

VI Tentatives d'indexation du corpus avec Tropes.
 
Une base a pu être construite à partir du corpus, mais je ne suis pas arrivée à rechercher des mots comme "nous", "on" et des séquences tel que "en ce sens", dans cette séquence seul "sens" est reconnu comme étant "un critère de recherche correct".
 
A priori seul les mots ayant au moins un sens courant peuvent faire l'objet d'une recherche, ainsi des termes comme "nous" et les termes qui agissent comme introducteurs des phrases contenant "nous" (connecteurs), n'ont pas de propriétés sémantiques générales qui permettent de les classer.
 
De plus leur répartition dans l'ensemble du texte par rapport aux autres termes est beaucoup plus faible.

Retour sommaire