Ajuster corpus et objectifs - 3e séance

Serge Fleury & Benoît Habert

 

Quintette : Cousseau, Aurélie, PX, cousseau.aurelie@etudiant.u-paris10.fr ,Vittecoq, Audrey, PX, audreyvittec@aol.fr , Garcia-Fernandez, Anne, PX, bobette_anne@yahoo.fr , Petel, Sandra, PX, petelsandra@yahoo.fr , Côté, Roland, PX, cote.roland@uquam.ca .

Retour au cours
TD 2ème séance

Le corpus LM10 et les dépendances syntaxiques

Prendre connaissance de la présentation de ce corpus, de la signalétique associée et des annotations disponibles (triplets correspondant à des dépendances syntaxiques).
Principales informations extraites des dépendances syntaxiques

Que penser de la taille du corpus des documents comprenant un mot de la famille "laïcité" (cf. paramètres lexicométriques du corpus) par rapport à celle de LM10 ?

Le corpus représente 1.5% du total, il semble assez étonnant qu’autant d’articles parlent d’une manière ou d’une autre de la laïcité.

Les grands mouvements sur 10 ans

Examiner le nombre de triplets et de documents au fil des ans dans les informations sur les dépendances syntaxiques. Repère-t-on des constantes et/ou des moments singuliers ?

 

On peut repérer des constantes, notamment une forte apparition des triplets par document entre les années 1993 à 1998, et une baisse importante (>2 triplets par document) à partir de 1999.

On remarque des moments singuliers tels que 1994 et 1996. Ces deux années contiennent plus de triplets que ceux des autres années, mais aussi la plus grande proportion de triplets par document. A l’inverse, on remarque une chute ponctuelle en 1992 (1.96).

 



A travers les graphiques d'évolution en fréquence relative de la famille 'laïcité', résumez les grandes tendances de l'évolution quand on la considère :

Au premier regard du graphique, on remarque, d’un point de vue global, une évolution positive faisant passer la fréquence relative de 160 000 à 180 000 en 10 ans. L’évolution année après année semble approximativement la même que celle observée précédemment, excepté la chute en 1995 plus flagrante sur le graphique.

Les graphiques mois après mois montrent que chaque année, on a deux mois « creux » (juillet et août) alors qu’il existe quelques pics dans le premier trimestre scolaire (en général, septembre et octobre). Cela permet de se rendre compte que chaque étude nous apporte des informations différentes et pertinentes par rapport au débat sur la laïcité : on passe d’une approche globale avec les graphes d’année par année puis on voit plus précisément comment tournent les thèmes journalistiques.


Comparez l'évolution suivant qu'on la considère via les formes ou via les lemmes ? Y a-t-il des changements importants ?

En reprenant les données chronologiques accessibles via la page du cours, pouvez-vous expliquer l'évolution constatée ?

On note une multiplication des débats au fil des années. Le pic de 1994 peut s’expliquer par la Circulaire Bayrou affirmant le droit des élèves à porter des signes discrets et interdisant des signes ostentatoires. Sur le site viepublique.fr on remarque une augmentation du nombre de dépêches au fil des ans, d’où la tendance générale. On ne trouve pas de document explicite pour le pic de 1996.

La famille "laïcité" sur un an / sur 10 ans : approche globale

Comparez les deux listes de mots.
Reprenez la liste pour 10 ans et colorez en rouge les formes présentes en 2003-04.

 

laïque

laïcité

laïcs

laïques

laïc

laïcisation

laïcisme

laïcat

laïcisé

laïcisée

laïcards

laïciser

laïcisés

laïcise

laïciste

laïcisant

laïcisateurs

laïcisées

laïcarde

laïcistes

lèse-laïcité

délaïcisation

laïci

laïcisa

laïco-assimilationnistes

beaujo-laïc

catho-laïques

islamo-laïcs

laïcard

laïcicité

laïcisait

laïcisante

laïcisants

laïcisations

laïcïté

laïco-assimilationniste

laïco-communiste

laïco-communistes

laïquesde

nationalo-laïque

pro-laïques

socialo-laïque


Isoler dans la liste 91-00 :


Pour 91-00, comparer la liste sur les formes et la liste sur les lemmes. Indiquer les formes qui vous paraissent mal lemmatisées. Quelles conclusions sur la qualité de la lemmatisation opérée ? Pensez-vous que les conséquences sont importantes pour la suite des traitements ?

Les contextes fondamentaux de laïcité

A partir des tableaux donnant les verbes dont laïcité est SUJ ou OBJ avec une fréquence > 1 :

1.    faites une liste des catégories qui vous paraissent pertinentes pour classer ces verbes (par exemple : définition correspondant à appeler, définir, consister, signifier). Vous vous reporterez éventuellement aux concordances fournies (triées à gauche pour OBJ et à droite pour SUJ). Faites correspondre un code couleur  à chaque catégorie.

2.    recopier les 2 tableaux et colorer les verbes selon leur catégorie.

3.    résumez les grandes tendances que vous observez.

Vous compléterez cette étude des verbes auxquels laïcité est fortement associé par la liste des syntagmes comprenant laïcité qui figurent en position 2 dans les triplets Syntex.

Les contextes principaux de laïcité au fil du temps

Le tableau sur laïcité en relation SUJ ou OBJ avec une fréquence > 1, au fil des ans, vous permettra de souligner à la fois quelques constantes dans l'emploi du mot et quelques changements ou points particuliers.

Les contextes principaux de laïc

Résumez les enseignements principaux des tableaux sur laïc en position 1 ou 2 et avec une fréquence >= 5 (ce plancher écrème déjà sérieusement les listes de triplets). Prenez soin de recopier les triplets les plus pertinents.

Un mot péjoratif : laïcisme

Extrayez les contextes (triplets) qui soulignent la valeur péjorative de ce mot (et des mots qui lui sont liés : laïcard, etc.).

La laïcité : un processus

Les mots autour de laïciser renvoient tous à un processus. On mettra à jour ce qui est l'agent ou le patient de ce processus, dans un tableau de la forme :

agent

patient

triplet correspondant

 

 

 

 

 

 

 

Ajustements ?

Adéquation corpus / objectifs


Pour étudier "laïcité" dans les dernières années, ont été rassemblés :
10 ans (1991-00) du journal "généraliste" Le Monde ;
1 année entière du même journal ;
des sources documentaires variées (chronologie, dossiers spécialisés).

Les données constituées vous paraissent-elles permettre de donner une image adéquate de la famille de "laïcité" :
à un moment donné (en 2003-04) : oui  ;
sur une période de durée moyenne (1991-00) : oui.
Nous disposons en effet de données très diverses qui permettent des observations sous différents angles de vues. Ceci est très intéressant. Cependant, il y a risque de « crouler » sous les informations...


A votre avis, faudrait-il ajouter d'autres données textuelles et si oui, lesquelles ?

On pourrait imaginer d’ajouter des données issues d’autres journaux (par exemple de courants politiques différents). Le journal Le Monde n’est représentatif que d’une partie de la population française : les lecteurs de ce journal.

Adéquation traitements / objectifs

Ont été mis à contribution pour approche "laïcité" et sa famille plusieurs niveaux de représentation :

Les outils lexicométriques (ici Lexico3) ont permis de disposer de concordances, de graphiques d'évolution, de repérage de sur- et sous-emplois de telle partie par rapport au reste du corpus.

Les outils et les traitements vous ont-ils permis de vous orienter dans les corpus ? Avez-vous eu le sentiment de vous "noyer" ? Pensez-vous qu'il faudrait disposer d'autres outils (si oui, lesquels) ?

La « noyade » est un risque pour les personnes découvrant le logiciel Lexico3 et les traitements qu’il permet. Pour nous la connaissance de ce logiciel a été un plus. La diversité des représentations (tableaux, graphiques,...) donne des perspectives différentes et complémentaires.

Avec plus de temps, on aurait pu traiter le corpus comme une base de données.

Méthologies

Avez-vous le sentiment, à travers la formation que vous avez reçue (linguistique en général, sémantique, lexicographie et lexicographie, terminologie, etc.) de disposer des méthodologies pour tirer profit de ce type de données ?

Oui, grâce à notre formation en morphologie, sémantique [...], mais surtout le fait de pouvoir lors de nos cours en informatique, s ‘adapter à différents résultats provenant de différents outils.


Si non, dans quels domaines souhaiteriez-vous recevoir une formation ?

A 1ère vue : langage HTML, Stats.