TAL Ilpga - Université Paris 3

Secteur TAL Informatique

ILPGA Université Paris 3

Parcours TAL : step 5

Les documents présentés ici (in-progress) sous ce thème ont été écrits à partir de : (1) le document écrit (ici : l'original) sur le site de Polytechnique...; (2) les cours réalisés par Benoît Habert à L'ENS de Fontenay St Cloud

Segmentation. Analyse. Corpus catégorisé

Segmentation, étiquetage et analyse syntaxique

Préambule

Les correcteurs orthographiques et grammaticaux sont apparus ces dernières années dans de nombreux logiciels de traitement de texte. Pour être efficaces, ceux-ci doivent identifier de manière automatique la nature et la fonction grammaticale des différents mots de la phrase. Il s'agit en fait d'un problème complexe actuellement non complètement résolu. La principale raison de cette complexité est que les mots utilisés sont naturellement très ambigus. Par exemple, le mot ne nous posera jamais aucun problème d'interprétation : ainsi nous lirons "Il est (verbe être) grand'', et "Cet homme vient de l'est ( ouest)". Nous allons voir ici, comment pendant une première phase d'analyse syntaxique un grand nombre d'ambiguïtés de ce genre peuvent être éliminées.

En allant vers l'analyse ...

Phase 1 : segmentation

La première phase de l'analyse syntaxique d'une phrase est d'en distinguer les différents constituants :

séparation des mots
des symboles de ponctuation
des séparateurs

Par exemple, la phrase :

La petite brise la glace.

comporte les mots : la, petite, brise, glace ; et le symbole de fin de phrase ".".

Pour aller plus loin sur la segmentation

Phase 2 : étiquetage

Puis à l'aide d'un dictionnaire on peut étiqueter tous les mots du texte. La lecture du dictionnaire donne les différents sens (grammaticaux) du mot la :

Pronom féminin singulier PRO:fs
Déterminant défini féminin singulier DET:fs
(musical) Nom masculin singulier N:ms

Figure 1: Phrase étiquettée.

Figure 2: Phrase totalement désambiguïsée (au niveau syntaxique.)

La phrase est ensuite représentée sous la forme d'un graphe représentant les différentes combinaisons possibles (Figure 1). Ainsi étiquettée cette phrase comporte interprétations, puisque tout ``chemin'' allant du cercle 1 au cercle 2, représente une interprétation grammaticale potentielle de la phrase. On dit que cette phrase est 72 fois ambigüe.

Pour aller plus loin sur l'étiquetage

Phase 3 : désambiguïsation

La troisième phase de l'analyse syntaxique consiste à éliminer le maximum d'ambiguïtés à l'aide de règles appellées grammaires locales.

Par exemple la règle : un déterminant ne peut pas précéder un verbe, supprime le chemin entre le mot la=DET:fs et le mot glace=V:P3s.

Après la levée complète des ambiguïtés syntaxiques, la phrase reste ici doublement ambiguë (Figure 2) et un seul mot sur les cinq est totalement désambiguïsé (le mot la).

La manière de représenter les règles de désambiguïsation, sera de définir des combinaisons de mots interdites. On dira qu'il s'agit de règles négatives (qui supprime des chemins). Par exemple :

un déterminant ne peut pas précéder un verbe : signifie que la combinaison (<DET> <V>) est interdite.
une phrase comporte au moins un verbe : signifie que la combinaison:

où M1, M2, ..., Mk sont tous des mots non <V> est interdite.

Une règle est représentée par un automate, c'est à dire un graphe orienté ayant un état initial et un état final, dont chaque état " " représente :

un mot : par exemple ,
un séparateur , , , , et le séparateur qui marque le début de la phrase.
une catégorie : Pour un mot il peut s'agir de (verbe), (adjectif), (nom), (déterminant), (préposition), (non classé : par exemple le mot ne).
Pour un séparateur, il n'y a que deux catégories : qui ``marque'' tous les séparateurs de fin de phrase et de début de phrase et qui marque les autres.
un mot avec sa catégorie :
une expression plus complexe utilisant le symbole de négation (point d'exclamation) : par exemple représente tous les mots sauf le mot est, représente le mot est sans la catégorie <V>, et est ou qui n'a pas la catégorie <V>.

Une combinaison dans le graphe de la phrase (c'est à dire une interprétation possible) est supprimée par une règle donnée, si il existe un chemin dans l'automate de la règle coïncidant avec un morceau de cette combinaison. Les figures 3, 4 et 5 représentent trois automates de désambiguïsation.
Par exemple, l'unique chemin de l'automate de la figure 4 coïncide avec n'importe quel chemin de la phrase d'exemple contenant <DET> suivi de <V>, ce qui supprime tous ces chemins.

De même le chemin suivant de l'automate de la figure 3