Serge Fleury

Maître de Conférences en linguistique informatique Sorbonne nouvelle, Paris 3
Membre du SYLEDED268

ILPGA / Sorbonne nouvelle
 
Retour Plan Slides TALN 1998

Gaspar : introduction

Introduction

o Mise en oeuvre d´un dispositif expérimental de TALN

o Un cadre de représentation particulier : la PàP

o Définir des représentations évolutives pour modéliser les faits de langue

o Un méta-niveau d´analyse : le retour du linguiste

Origine et choix

o Nécessité de représenter la mouvance ?

  • La langue évolue en permanence (Biber 1993)
  • La description linguistique doit être ajustée pour tenir compte de nouvelles informations

o Pourquoi associer des savoirs aux mots?

  • Il est illusoire de traiter globalement les problèmes de la langue
  • Etude au niveau des mots des régularités et des redondances

Quels savoirs pour les mots ?

o Peut-on prévoir les fonctionnements lexicaux ?

  • Un examen des comportements des mots révèle des variations qu'il semble difficile de fixer dans des structures de représentation statiques

En médecine coronarienne, longue marque le degré dans la séquence nominale "une occlusion longue"

Dans d'autres sous-langages, cet adjectif n'est pas typé pour marquer le degré

o Imprévisibilité des comportements lexicaux

artère et infarctus entrent dans des relations de localisation : deux réalisations distinctes

artere {coronaire circonflexe diagonal...}

infarctus {anterieur inferieur apical }

o Imprévisibilité des contraintes sur les combinaisons d'arbres

  • Proximités de contextes entre adjectifs...

coronaire et coronarien partagent des contextes

  • Mais combinaisons divergentes

coronarien est associé à des adjectifs évaluatifs {severe, significatif, important}

coronaire ne l'est pas

  • Diversité des combinaisons d'arbres réalisées sur une même (sous) famille de mots
  • La relation de localisation est soit généralement présente, soit présente sous une forme particulière, soit non présente

Un Problème

o (1) Représenter les mots et leurs comportements

  • Les savoirs associés aux mots peuvent bouger et remettre en cause des représentations construites à un moment donné
  • Les savoirs généraux que l'on peut associer aux mots ne sont pas toujours pertinents (Biber 1993)
  • Il n'est donc pas satisfaisant de se contenter d'un modèle apriorique pour construire une représentation des comportements des unités lexicales

o (2) Classer les mots suivant leurs comportements

  • Ne pas prédéterminer de manière figée ni les structures définies pour cette représentation ni leurs classements

"La construction d'une hiérarchie est un processus incrémental" et une hiérarchie "évolue et s'améliore en fonction des résultats obtenus jusqu'à ce qu'une certaine forme de stabilité soit atteinte" (Haton & al. 1991)

Un Corpus

o Hypothèse retenue : il y a peu de sens à vouloir faire de l'acquisition sémantique en dehors d'un sous-langage

o Comment attacher des connaissances aux unités lexicales ?

  • Acquisition de connaissances par apprentissage
  • Par affinements successifs

o Solution retenue : extraction de savoirs à partir de corpus

  • Repérer les arbres élémentaires de dépendance entre mots (relations opérateur-opérandes) et les contraintes sur les combinaisons de ces arbres
  • Corpus MENELAS (Zweigenbaum & al. 1995)
  • Unité thématique : les maladies coronariennes

Un Outil Informatique

o Les représentations des mots et de leurs comportements doivent pouvoir évoluer

  • Les outils de représentation doivent permettre que les représentations des mots et leurs classements évoluent

o Quel outil pour représenter la mouvance ?

  • La PàP

o La PàP : Programmation à Prototypes

  • Construction progressive d'entités informatiques suivant les connaissances dont on dispose
  • Si de nouvelles connaissances sont mises au jour, on affine le processus de représentation déjà amorcé sans avoir à reconstruire entièrement de nouvelles structures