ANALYSES

ANALYSES

L'extraction de patrons morpho-syntaxiques peut s'appliquer sur des phénomènes réguliers de la langue que l'on veut repérer.

Ici, nous avons donc utilisé la BAO3 dans un but précis, la recherche d'antonomases.

Pour commencer

Étant donné que notre corpus est de type journalistique, il est bon de rappeler ce qui suit :

«La presse est une pratique sociodiscursive institutionnalisée qui répond à la finalité communicative d’informer sur les événements de l’actualité et de commenter (analyser et interpréter) leur signification.»(1)*

Outre l'aspect linguistique, il s'agit de communication. Le fait de travailler initialement sur des fils RSS a beaucoup d'importance, puisque les fils RSS doivent porter un titre qui incite le cybernaute à cliquer, tout est affaire de business.

Ainsi, des stratégies linguistiques sont mises en œuvres, particulièrement dans les titres, et de ce fait, il y a des tournures, assez typiques et caractéristiques et c'est dans cette logique que Cecilia indique que « Le titre d’une nouvelle de la presse annonce d’une manière globale et synthétique l’aspect le plus significatif de l’événement rapporté. »

Ce même auteur indique que les structures nominales sont des friandises que le français adore particulièrement pour les titres (par contraste avec les journaux espagnols), permettant entre autres, de 'camoufler' les agents et actants d'un procès, par exemple 'Fusillade à Lille cette nuit'.

Puisque des chercheurs trouvent une particularité aux constructions nominales dans le discours journalistique, nous avons donc restreint notre analyse aux SN. Nous avons doublement restreint notre analyse en choisissant de ne traiter que certains SN, en travaillant sur les antonomases.

Les anto-quoi?

« Le Npr, dans une phrase comme Pierre est un véritable Harpagon, se comporte comme un Ne. Ce changement de catégorie a reçu de la tradition le nom d'antonomase du nom propre. »(2)*

Ici, presque tout est dit. L'antonomase du nom propre est donc ce phénomène où le nom propre devient un nom commun, c'est-à-dire que d'un point de vue syntaxique, il change de catégorie.

Du fait que le nom propre réagisse syntaxiquement dans cette structure comme un nom commun, il y a une condition sine qua non, il faut un déterminant avant ce nom propre, quel qu'il soit : 'L'antonomase exige donc que le Npr soit précédé d'un déterminant qui lui donne un statut comparable à celui d'un Ne.'

Une autre condition, qui s'avère plus complexe pour un simple étiqueteur, doit être que le nom propre devenu nom commun est une entité (principalement de personne) reconnue, officielle, comme Leroy l'indique :

"Le nom propre en antonomase est associé à un référent (personne, lieu...) qui bénéficie d’une certaine (notoriété « historique », très large (notoriété « médiatique », plus restreinte dans l’espace et dans le temps (notoriété « discursive », locale, (le référent du nom propre a été ou sera présenté au cours du discours précédant ou suivant l’antonomase) mais il ne désigne pas, en l’occurrence, le référent qui y est habituellement associé."

Cela induit des combinaisons possibles comme :

DET-NP = le/un Gavroche (des temps modernes)

DET-ADJ-NP = la/une vraie Causette (des cités)

DET-NP-ADJ = un/le Valjean misérable (du quartier?)

et ces mêmes structures font des petits en rajoutant un complément du nom que l'on a indiqué entre parenthèses. Le complément du nom semble toutefois moins certain pour la combinaison DET-NP-ADJ.

La linguistique c'est bien beau mais...

«[Les] ressources informatiques permettent le traitement automatique d'un corpus constitué à l'aide d'une base textuelle ou non, qu'il s'agisse de manipulation (par des outils statistiques, des concordanciers....) ou d'annotation des données (par des outils d'étiquetage phonétique, grammatical, sémantique...), en vue d'une exploitation linguistique. »(3)*

Le projet ici présent est donc la mise en place d'une chaîne de traitement semi-automatisée, passant par l'étiquetage, et permettant ainsi l'extraction de patron morpho-syntaxiques, et nos patrons, nous les avons, puisque nous cherchons nos antonomases.

Nous présentons donc maintenant comment nous avons utilisé la BAO3, c'est-à-dire les fichiers qui ont été étiquetés, pour permettre d'extraire ce que nous cherchons

Les fichiers de Cordial

Nous avons tout d'abord commencé par rechercher la combinaison DET-NP. Ainsi, pour ce faire, il nous a fallu sélectionner les bons patrons

L'on peut aisément remarquer qu'il y a une grande quantité de noms de lieux qui ont été récupérés. Ce patron est donc à la fois trop large, mais est un bon début pour repérer nos antonomases. Quelques occurrences attirent notre attention, telles que 'la Houellebecq', 'un Tartuffe' par exemple. Il y a aussi d'autres éléments que nous allons retrouver comme 'un Picasso'.

Nous affinons donc la recherche en utilisant la combinaison avec DET-ADJ-NOMP:

Ici, la particularité se trouve dans des structures comme 'Le dernier Woody Allen', qui ressemble de près à une antonomase, mais la question se pose tout de même.

On tente maintenant l'inverse, c'est-à-dire, la recherche de la combinaison DET-NOMP-ADJ

Encore une fois, l'on retrouve des occurrences comme 'Un Banksy tombé' ou encore 'un Picasso volé|retrouvé|vendu'

On retrouve le même phénomène que précédemment, à savoir 'un Scorsese inédit'. Que peut-on dire de ce type d'occurrences? Doit-on les considérer comme des antonomases?

A cette question, nous répondrons de la manière suivante:

« Que le Npr dans son emploi premier désigne un individu sans passer par la médiation d'un concept, n'est nullement contradictoire avec le fait qu'il soit pris comme signe de l'ensemble des propriétés qui caractérisent un individu et le distinguent de tous les autres »

En d'autres termes, selon ce que Flaux dit ici, le nom propre est utilisé pour qualifier une personne par rapport aux propriétés du nom propre communément admises. 'Un Picasso', 'Le dernier Scorsese' ne sont que des procédés de dénomination ayant l'allure d'une synecdoque, mais ne dévoilent rien d'autre comme propriété que leur auteur.

Un bon test linguistique pour trancher serait de dire 'est antonomase ce qui supporte une structure telle que "il fait son Harpagon" VS "*il fait son Woody Allen"'. La deuxième occurrence pourrait être considérée comme antonomase si Woody Allen avait la réputation d'avoir une propriété particulière.

Il y a en revanche, des occurrences qui s'avèrent beaucoup plus certaines :'l' Alibaba africain' ou encore 'un Tartuffe démentiel', s'approchant beaucoup plus de l'antonomase.

On essaie aussi de voir ce qui se passe pour la combinaison DET-NOMP-PP

Ici, une occurrence pouvait paraître intéressante :'L'Hermione autorisée', mais l'Hermione est bel est bien utilisé comme un nom propre, s'agissant d'un bateau, ce qui ne veut pas dire "être X comme Hermione" ou encore "*elle fait son Hermione".

On poursuit donc notre petite recherche, cette fois-ci avec un patron un peu plus complexe: DET-NOMP-DET-NOM(P), nous cherchons donc un éventuel complément du nom:

Nous retrouvons aussi ici des occurrences assez proches de ce que nous discutions un peu plus haut, telles que 'le Goncourt du cinéma', qui, de la même manière, ressemble à une antonomase, mais ne caractérise pas un individu (avec notre petit test :"*il fait son Goncourt", ne fonctionne pas).

Ainsi, pour résumer, il semblerait que la combinaison DET-NOMP-ADJ est celle qui nous a donné les occurrences que l'on peut qualifier d'antonomase. Les autres combinaisons ont révélé des figures très proches de l'antonomase d'un point de vue syntaxique, mais pas d'un point de vue sémantique.

Du côté de TreeTagger

Pour TreeTagger, nous avons réduit les combinaisons, en gardant les plus pertinentes que Cordial nous a données.

Il est par ailleurs important de faire remarquer que les étiqueteurs TreeTagger et Cordial ne donnent pas les mêmes étiquettes, ce qui peut influencer aussi les résultats.

Nous commençons donc par la base, la recherche de la combinaison DET-NOMP:

Une différence, et non des moindres, réside dans l'étiquetage en lui-même. Si Cordial étiquetait par exemple 'au Maroc' comme DET-NOMP, Treetagger annote ce déterminant non réellement comme un DET mais PRP. Le fait d'avoir besoin de rajouter dans les patrons, une préposition, puisque Treetagger considère ces déterminants comme des PRP, cela donne beaucoup de résultats qui ne sont pas au cœur de notre recherche, donc beaucoup de bruit. On peut remarquer aussi que TreeTagger repère peut-être un peu moins bien les noms propres.

Nous nous essayons maintenant au patron DET-ADJ-NOMP

Ici, nous ne retrouvons aucun DET-ADJ-NOM qui correspondrait à une antonomase. Cordial avait matché plus d'occurrences, mais il ne s'agissait pas d'antonomases.

Désormais, on opère le même traitement, mais pour le contraire, à savoir, DET-NOMP-ADJ

Ici, nous retrouvons une occurrence que Cordial avait trouvée 'un Tartuffe démentiel', qui est une antonomase. On note aussi que TreeTagger annote "James Bond" comme étant "ADJ-NOMP"...

Et pour les formes plus complexes, DET NOMP DET NOM

L'on retrouve ici, comme il avait été le cas pour Cordial, une occurrence comme 'un Modigliani aux enchères', qui a la structure syntaxique de l'antonomase, mais qui n'en est pas une. L'occurrence 'la Houellebecq du trio' nous a interpellé, mais voyant le cotexte, il ne s'agit pas d'une antonomase, puisque la phrase est 'Le réalisme à la Houellebecq du trio bordelais a fait parlpiter le public'.

Pour conclure...

D'une manière générale, nous pouvons conclure deux choses. Cordial a été plus efficace dans le repérage des noms propres, ce qui est pratique pour une étude comme celle-ci, qui s'intéresse justement aux noms propres.

La deuxième chose que l'on peut constater, c'est que la manière d'interpréter linguistiquement les unités minimales influence la qualité de l'étiqueteur, et a fortiori, la qualité des études qui se basent sur ces étiqueteurs. Ainsi TreeTagger considère certains éléments qui sont des déterminants comme des prépositions, ce qui génère du bruit. Aussi, il semblerait que la reconnaissance de no propre sur Cordial soit basée en partie sur les majuscules, ce qui peut aussi générer du bruit.

Il ne s'agit pas d'une analyse de grande qualité, mais opérer de cette manière nous a permis de montrer une articulation possible entre la théorie linguistique et son application en TAL.

Ce que peuvent nous dire les graphes

Compte tenu du peu d'occurrences que nous classons comme antonomases, et qu'elles ont été majoritairement trouvées par Cordial, nous appliquons le principe des graphes qu'en partant du fichier Cordial, un peu plus fourni en contenu.

Il semblerait que la rubrique la plus concernée par les antonomase soit la rubrique 3260, c'est-à-dire la rubrique 'Livres'.

La combinaison qui a été la plus fructueuse en ce qui concerne les antonomases a été 'DET-NOM-ADJ':

Nous faisons donc tourner le programme qui génère le graphe comportant tout d'abord l'occurrence 'Un Tartuffe démentiel':

graphe de l'antonomase

Désormais, nous le faisons tourner sur l'occurrence 'L'Alibaba africain':

graphe de l'antonomase

Nous ne constatons pas grand chose si ce n'est la présence assez importante d'adjectifs relatifs aux pays. Il pourrait être intéressant de voir, avec un corpus plus grand, si les antonomases comportent préférentiellement des adjectifs de ce type.

Outre nos antonomases, il semblerait que d'une manière générale, la combinaison simple DET-NOMP privilégie les déterminants définis aux indéfinis, chose que nous avons pu vérifier en utilisant les motifs adéquats. Voici quelques illustrations de nos propos:

graphe déterminant féminin defini

graphe determinant masculin defini

graphe determinant masculin indefini

graphe determinant feminin indefini

(1)* = CECILIA, Juan Herrero. Syntaxe, sémantique et pragmatique des titres des nouvelles de la presse française construits en forme de phrase nominale ou averbale: aspects cognitifs et communicatifs. In : Littérature, langages et arts: rencontres et création. Servicio de Publicaciones, 2007. p. 97.

(2)* = FLAUX, Nelly. L'antonomase du nom propre ou la mémoire du référent. Langue française, 1991, no 92, p. 26-45.

(3)* = LEROY, Sarah. Extraire sur patrons: allers et retours entre analyse linguistique et repérage automatique. Revue française de linguistique appliquée, 2004, vol. 9, no 1, p. 25-43.