Ajuster corpus et objectifs - 3e séance

Serge Fleury & Benoît Habert

 

Binôme/trinôme : noms, prénoms, appartenance (PIII, Inalco, PX) et mails

RENOUX Anne-Myrtille

INALCO

am_renoux@yahoo.com

VARGAS Jesir

ILPGA

jvargas@acm.org

Retour au cours
TD 2ème séance

Le corpus LM10 et les dépendances syntaxiques

Prendre connaissance de la présentation de ce corpus, de la signalétique associée et des annotations disponibles (triplets correspondant à des dépendances syntaxiques).
Principales informations extraites des dépendances syntaxiques

Que penser de la taille du corpus des documents comprenant un mot de la famille "laïcité" (cf. paramètres lexicométriques du corpus) par rapport à celle de LM10 ?

Taille du corpus LM10 : 200 000 000 mots

Taille du corpus  « laïcité » : 3 300 000 mots

Donc  le corpus « laïcité » représente 1,5% du corpus LM10 (i.e., 3 300 000 / 200 000 000), ce qui est un nombre important.

Les grands mouvements sur 10 ans

Examiner le nombre de triplets et de documents au fil des ans dans les informations sur les dépendances syntaxiques. Repère-t-on des constantes et/ou des moments singuliers ?

 

            On peut classer les années en deux groupes selon le nombre de triplets : «environ 550 » et environ « 750 ».  L’année 94, avec 1055 triplets au total et 411 documents représente un moment singulier.

 

Pour le nombre de documents, on distingue trois tendances « 250 » (les années 91, 92, 98, 99, 00), « 300 » (les années 93, 95, 96, 97) et « 400 » (l’année 94).

 


A travers les graphiques d'évolution en fréquence  relative de la famille 'laïcité', résumez les grandes tendances  de l'évolution quand on la considère :

la courbe de l’ évolution de la fréquence relative des mots de la famille laïcité présente deux pics, qui coïncident avec les années 94 et 96. Il est à noter que l’année 94 correspond au moment singulier repéré ci-dessus.

 

Les deux pics qui apparaissaient en 94 et en 96 sur la courbe de fréquence  année par année sont reflétés sur la courbe mois par mois. En outre, on constate la présence d’un pic dans les derniers mois de l’année 97, qui ne correspondait pas à un pic dans la courbe année par année. En effet, ce pic est compensé par des valeurs basses de la fréquence relative pour la même année. Le graphique année par année, qui tient compte seulement de la moyenne annuelle, efface donc ce pic.


Comparez l'évolution suivant qu'on la considère via les formes ou via les lemmes ? Y a-t-il des changements importants ?

En reprenant les données chronologiques accessibles via la page du cours, pouvez-vous expliquer l'évolution constatée ?

La famille "laïcité" sur un an / sur 10 ans : approche globale

Comparez les deux listes de mots.
Reprenez la liste pour 10 ans et colorez les formes présentes en 2003-04.
Isoler dans la liste 91-00 :


Pour 91-00, comparer la liste sur les formes et la liste sur les lemmes. Indiquer les formes qui vous paraissent mal lemmatisées. Quelles conclusions sur la qualité de la lemmatisation opérérée ? Pensez-vous que les conséquences sont importantes pour la suite des traitements ?

Les contextes fondamentaux de laïcité

 

A partir des tableaux donnant les verbes dont laïcité est SUJ ou OBJ avec une fréquence > 1 :

  1. faites une liste des catégories qui vous paraissent pertinentes pour classer ces verbes (par exemple : définition correspondant à appeler, définir, consister, signifier). Vous vous reporterez éventuellement aux concordances fournies (triées à gauche pour OBJ et à droite pour SUJ). Faites correspondre un code couleur  à chaque catégorie.
  2. recopier les 2 tableaux et colorer les verbes selon leur catégorie.
  3. résumez les grandes tendances que vous observez.

Vous compléterez cette étude des verbes auxquels laïcité est fortement associé par la liste des syntagmes comprenant laïcité qui figurent en position 2 dans les triplets Syntex.

Les contextes principaux de laïcité au fil du temps

Le tableau sur laïcité en relation SUJ ou OBJ avec une fréquence > 1, au fil des ans, vous permettra de souligner à la fois quelques constantes dans l'emploi du mot et quelques changements ou points particuliers.

 

Défendre

 

défendre

respecter

maintenir

protéger

confronter

menacer

 

Acte de parole

 

Prêcher

Revendiquer

réaffirmer

prôner

évoquer

définir

 

mettre en pratique

 

appliquer

vivre

instaurer

ériger

adopter

 

cognition

 

inventer

ignorer

confondre

percevoir

considérer

 

autres

 

concerner

exalter

appeler

accepter

mettre

représenter

consister

 

 

Les contextes principaux de laïc

Résumez les enseignements principaux des tableaux sur laïc en position 1 ou 2 et avec une fréquence >= 5 (ce plancher écrème déjà sérieusement les listes de triplets). Prenez soin de recopier les triplets les plus pertinents.

Un mot péjoratif : laïcisme

Extrayez les contextes (triplets) qui soulignent la valeur péjorative de ce mot (et des mots qui lui sont liés : laïcard, etc.).

La laïcité : un processus

Les mots autour de laïciser renvoient tous à un processus. On mettra à jour ce qui est l'agent ou le patient de ce processus, dans un tableau de la forme :

agent

patient

triplet correspondant

 

 

 

 

 

 

 

Ajustements ?

Adéquation corpus / objectifs


Pour étudier "laïcité" dans les dernières années, ont été rassemblés :
10 ans (1991-00) du journal "généraliste" Le Monde ;
1 année entière du même journal ;
des sources documentaires variées (chronologie, dossiers spécialisés).

Les données constituées vous paraissent-elles permettre de donner une image adéquate de la famille de "laïcité" :
à un moment donné (en 2003-04) ;
sur une période de durée moyenne (1991-00).

A votre avis, faudrait-il ajouter d'autres  données  textuelles et si oui, lesquelles ?

Peut-être une meilleure précision pour les graphiques mois par mois (i.e., que chaque mois soit repéré)

 

Adéquation traitements / objectifs

Ont été mis à contribution pour approche "laïcité" et sa famille plusieurs niveaux de représentation :

Les outils lexicométriques (ici Lexico3) ont permis de disposer de concordances, de graphiques d'évolution, de repérage de sur- et sous-emplois de telle partie par rapport au reste du corpus.

Les outils et les traitements vous ont-ils permis de vous orienter dans les corpus ? Avez-vous eu le sentiment de vous "noyer" ? Pensez-vous qu'il faudrait disposer d'autres  outils (si oui, lesquels) ?

 

Il aurait été plus profitable que les  concordances  sur lesquelles nous nous sommes basés pour réaliser les constellations soient lemmatisées.

Méthologies

Avez-vous le sentiment, à travers la formation que vous avez reçue (linguistique en général, sémantique, lexicographie et lexicographie, terminologie, etc.) de disposer des méthodologies pour tirer profit de ce type de données ?
Si non, dans quels domaines souhaiteriez-vous recevoir une formation ?

Non, peut-être une formation sur la statistique textuelle et la terminologie.