Ajuster corpus et objectifs - 3e séance

Serge Fleury & Benoît Habert


Binôme/trinôme :
Sabin Priscille(INALCO TRAD) cypriscille@hotmail.com,
Pera Pierre-Julien(INALCO TRAD) pejipera@hotmail.com, Garçon Jean-Louis(INALCO IM) ziel@club-internet.fr

Retour au cours
TD 2ème séance

Le corpus LM10 et les dépendances syntaxiques

Prendre connaissance de la présentation de ce corpus, de la signalétique associée et des annotations disponibles (triplets correspondant à des dépendances syntaxiques).
Principales informations extraites des dépendances syntaxiques

Que penser de la taille du corpus des documents comprenant un mot de la famille "laïcité" (cf. paramètres lexicométriques du corpus) par rapport à celle de LM10 ?
Le corpus LM10 contient 200 millions de mots tandis que le corpus des documents comprenant un mot de la famille laïcité n'en contient que 13.5 millions, soit très peu si l'on considère que le premier corpus est sur 10 ans.

Les grands mouvements sur 10 ans

Examiner le nombre de triplets et de documents au fil des ans dans les informations sur les dépendances syntaxiques. Repère-t-on des constantes et/ou des moments singuliers ?

A travers les graphiques d'évolution en fréquence relative de la famille 'laïcité', résumez les grandes tendances de l'évolution quand on la considère :

Comparez l'évolution suivant qu'on la considère via les formes ou via les lemmes ? Y a-t-il des changements importants ?
On peut se rendre compte que les différences de valeur ne sont que très faibles entre les deux courbes, au maximum de l'ordre de deux points. Les deux courbes suivent donc les mêmes pics et chutes pour les deux formes.
En reprenant les données chronologiques accessibles via la page du cours, pouvez-vous expliquer l'évolution constatée ?
La principale explication de l'évolution de ces données et simple: la laïcité est un thème récurrent à chaque rentrée scolaire, les pics mensuels apparaissent donc vers les mois de septembre et octobre alors que ce sujet revet une moindre importance lors des vacances d'été.

La famille "laïcité" sur un an / sur 10 ans : approche globale

Comparez les deux listes de mots.
Reprenez la liste pour 10 ans et colorez les formes présentes en 2003-04.
Isoler dans la liste 91-00 :


Famille "laïcité" sur corpus FRANCE

 

REGEXP : \blaï(c|q).*\b

FORME Fréquence
laïcité 776
laïque 120
laïques 16
laïc 8
laïcs 3
laïcards2
laïcisation 2
laïcisme 2
laïcistes 2
laïcités 2
laïcardisme 1
laïcit 1

 


laïque
laïcité
laïcs
laïques
laïc
laïcisation
laïcisme
laïcat
laïcisé
laïcisée
laïcards
laïciser
laïcisés
laïcise
laïciste
laïcisant
laïcisateurs
laïcisées
laïcarde
laïcistes
lèse-laïcité
délaïcisation
laïci
laïcisa
laïco-assimilationnistes
beaujo-laïc
catho-laïques
islamo-laïcs
laïcard
laïcicité
laïcisait
laïcisante
laïcisants
laïcisations
laïcïté
laïco-assimilationniste
laïco-communiste
laïco-communistes
laïquesde
nationalo-laïque
pro-laïques
socialo-laïque

Pour 91-00, comparer la liste sur les formes et la liste sur les lemmes. Indiquer les formes qui vous paraissent mal lemmatisées. Quelles conclusions sur la qualité de la lemmatisation opérérée ? Pensez-vous que les conséquences sont importantes pour la suite des traitements ?

Les contextes fondamentaux de laïcité

A partir des tableaux donnant les verbes dont laïcité est SUJ ou OBJ avec une fréquence > 1 :
  1. faites une liste des catégories qui vous paraissent pertinentes pour classer ces verbes (par exemple : définition correspondant à appeler, définir, consister, signifier). Vous vous reporterez éventuellement aux concordances fournies (triées à gauche pour OBJ et à droite pour SUJ). Faites correspondre un code couleur  à chaque catégorie.
  2. recopier les 2 tableaux et colorer les verbes selon leur catégorie.
  3. résumez les grandes tendances que vous observez.
Vous compléterez cette étude des verbes auxquels laïcité est fortement associé par la liste des syntagmes comprenant laïcité qui figurent en position 2 dans les triplets Syntex.

Les contextes principaux de laïcité au fil du temps

Le tableau sur laïcité en relation SUJ ou OBJ avec une fréquence > 1, au fil des ans, vous permettra de souligner à la fois quelques constantes dans l'emploi du mot et quelques changements ou points particuliers.

Les contextes principaux de laïc

Résumez les enseignements principaux des tableaux sur laïc en position 1 ou 2 et avec une fréquence >= 5 (ce plancher écrème déjà sérieusement les listes de triplets). Prenez soin de recopier les triplets les plus pertinents.

Un mot péjoratif : laïcisme

Extrayez les contextes (triplets) qui soulignent la valeur péjorative de ce mot (et des mots qui lui sont liés : laïcard, etc.).

La laïcité : un processus

Les mots autour de laïciser renvoient tous à un processus. On mettra à jour ce qui est l'agent ou le patient de ce processus, dans un tableau de la forme :

agent
patient
triplet correspondant








Ajustements ?

Adéquation corpus / objectifs


Pour étudier "laïcité" dans les dernières années, ont été rassemblés :
10 ans (1991-00) du journal "généraliste" Le Monde ;
1 année entière du même journal ;
des sources documentaires variées (chronologie, dossiers spécialisés).

Les données constituées vous paraissent-elles permettre de donner une image adéquate de la famille de "laïcité" :
à un moment donné (en 2003-04) ;
sur une période de durée moyenne (1991-00).
Oui, notamment, en ce qui concerne les cycles d'utilisation des mots de la famille laïcité(vacances, etc...).
A votre avis, faudrait-il ajouter d'autres données textuelles et si oui, lesquelles ?
Eventuellement une chronologie des faits d'actualité marquants de la période étudiée (sur les 10 années) qui nous permettrait d'expliquer plus précisément les évolutions de la courbe d'utilisation années par années des mots de la famille laïcité..

Adéquation traitements / objectifs

Ont été mis à contribution pour approche "laïcité" et sa famille plusieurs niveaux de représentation :
Les outils lexicométriques (ici Lexico3) ont permis de disposer de concordances, de graphiques d'évolution, de repérage de sur- et sous-emplois de telle partie par rapport au reste du corpus.

Les outils et les traitements vous ont-ils permis de vous orienter dans les corpus ? Avez-vous eu le sentiment de vous "noyer" ? Pensez-vous qu'il faudrait disposer d'autres outils (si oui, lesquels) ?
Notre réponse ne saurait-être objective, étant donné le nombre de travaux que nous devions préparer parrallèlement à ce travail. Le sentiment de "noyade", et l'impression d'avoir dû bâcler le travail, est sans doute davantage lié à un manque de temps qu'à un mauvais corpus ou qu'à des outils inefficients.

Méthologies

Avez-vous le sentiment, à travers la formation que vous avez reçue (linguistique en général, sémantique, lexicographie et terminologie, etc.) de disposer des méthodologies pour tirer profit de ce type de données ?
Oui, nous pensons qu'avec suffisamment de temps, nous serions tout à fait capables d'exploiter avec profit ce type de données.

Si non, dans quels domaines souhaiteriez-vous recevoir une formation ?
Une formation aux outils de la veille serait un plus non négligeable.