Serge Fleury

Maître de Conférences en linguistique informatique Sorbonne nouvelle, Paris 3
Membre du SYLEDED268

ILPGA / Sorbonne nouvelle
 
Retour Plan Slides TALN 1998

Acquisition de savoirs en corpus

Extraction des fonctionnements lexicaux

o Point de départ : le corpus MENELAS

  • 70000 mots sur les maladies coronariennes

o Des outils d´extraction

  • Lexter : un extracteur de candidat terme (Direction des Etudes et Recherches EDF)
  • Zellig : une chaîne de recyclage (Habert & al. 1996)

o A partir d'arbres d'analyse

  1. Simplifier les arbres d´analyse
  2. Extraire les arbres "élémentaires" ou minimaux
  3. Caractériser les combinaisons de ces arbres

o Travaux récents en acquisition automatique de classes de mots

  • (Church & Hank 1990), (Hindle 1990), (Smadja 1993), (Resnik 1993), (Grefenstette 1994), (Grishman & Sterling 1994)

LEXTER (Bourigault 93)

o Outil d'acquisition terminologique

o En entrée : textes techniques arbitrairement longs

o Recherche de groupes terminologiques maximaux

o Structuration

o Une séquence nominale = une Tête (T) + une Expansion (E) (récursivement)

[T [T stenose] [E severe]][E de le [T tronc][E commun]][E gauche]

o Approche endogène

  • Deux découpages pour une séquence

(1) [angine de poitrine] instable

(2) angine de [poitrine instable]

  • Recherche dans le corpus de situations non ambiguës

angine de poitrine existe

poitrine instable n'existe pas

  • Sélection de (1)

 

ZELLIG (Habert & al. 95)

o But

  • Simplifier les arbres d'analyses fournis par un analyseur, ici LEXTER
  • Mettre en évidence les relations élémentaires de dépendance entre mots pleins

o Simplification d'arbres d'analyse

  • (1) Transformation en un arbre syntagmatique via le transducteur FRT (Habert & al. 1996)

=> Normalisation en arbre binaire Tête/(Modifieur ou Argument)

  • (2) Le programme Cyclade (Habert & Nazarenko 96) est ensuite chargé de déterminer les arbres élémentaires via un filtrage de quasi-arbres (Habert & Folch 96)
  • La déconstruction récursive met à jour des arbres élémentaires qui ne sont pas forcément directement présents dans l'arbre de départ
  • Les arbres élémentaires mis au jour sont les suivants :

"Les dépendances élémentaires ainsi définies n'ont pas forcément de réalisation effective dans le corpus mais ils correspondent à des relations de dépendance vérifiées dans les arbres d'analyse, si l'on passe par une représentation logique de ces arbres et de ces dépendances élémentaires" (Habert & al. 1996)

Du corpus aux arbres minimaux

o Extrait du corpus

Patient âgé de 70 ans, diabétique, qui a présenté il y a un an une douleur thoracique nocturne probablement en rapport avec un infarctus antéro-septal. Il est toujours symptomatique sous la forme d´un angor d´effort qu´il a lui-même négligé, avec semble-t-il plusieurs épisodes de préchordialgies de repos. La coronographie met en évidence des lésions bitronculaires. L´occlusion de l´IVA est responsable d´une hypokinésie antérieure. Une sténose serrée, diagonale et circonflexe est responsable de l´angor d´effort.

o Arbre de Lexter

o Après transformation dans Zellig

Du corpus jaillit un réseau de prototypes

o On dispose en amont d'arbres associés à des mots

LEXTER => FRT => Arbres standardisés

=> CYCLADE => Arbres minimaux

o Savoirs éclatés, peu de généralisation

o Ces savoirs ne sont pas figés : ils pourront évoluer

  • Relatifs à un état particulier du travail d'extraction sur corpus

Définitions préliminaires

o On appelle arbre minimal ou élémentaire un arbre associé à une entrée lexicale traduisant une relation binaire de dépendance entre mots pleins

o On appelle arbre d'analyse un arbre associé à un arbre élémentaire : cet arbre d'analyse est obtenu par des opérations effectuées à partir de l'arbre élémentaire (adjonction, substitution...)

o On appelle prototype de mot l'objet informatique défini pour représenter un mot

o On appelle prototype d'arbre élémentaire l'objet informatique défini pour représenter un arbre élémentaire

o On appelle prototype d'arbre d'analyse l'objet informatique défini pour représenter un arbre d'analyse

Esquisse d'une démarche de représentation

o CYCLADE révèle des proximités (comportementales) entre formes

  • stenose et lesion appartiennent à la même catégorie
  • Contructions partagées par stenose et lesion

o Utilisation des savoirs particuliers à un mot pour représenter une catégorie

  • Un mot -> une représentation informatique

o Représentation d'unités semblables par copie et ajustements

o Représentation des comportements lexicaux

  • On commence par construire les structures pour représenter les arbres associés à stenose

o Les prototypes d'arbres déjà construits pour stenose et partagés par lesion seront associés au prototype représentant lesion

o Partage des comportements communs

  • Les mots stenose et lesion partagent des arbres élémentaires
  • On construit un pôle de savoir partagé

Que fait la PàP ?

o Représentation des connaissances peu hiérarchisées

o Représentation d'un domaine en utilisant un élément particulier du domaine

o Représentation d'autres éléments par clonage et ajustements

o Partage local d'informations via la délégation : mise en place d'héritages locaux de comportements partagés