Serge Fleury

Maître de Conférences en linguistique informatique Sorbonne nouvelle, Paris 3
Membre du SYLEDED268

ILPGA / Sorbonne nouvelle
 

TyPTAG/TyPTex

Typer les textes pour disposer de corpus représentatifs, H. Folch, S. Fleury, B. Habert, S. Heiden, G. Illouz, P. Lafon, LIMSI & UMR 8503 -ENS Fontenay/Saint­Cloud
Le traitement automatique du langage fait de plus en plus appel à de volumineux corpus textuels pour l'acquisition des connaissances qui lui sont nécessaires : cadres de sous­catégorisation des verbes, collocations, enchaînement de catégories... L'obstacle actuel n'est plus la disponibilité de corpus, mais l'hétérogénéité des données qui sont rassemblées sous ce nom. Les données du journal Le Monde distribuées par ELRA rassemblent ainsi des textes de longueur très différentes (des quelques dizaines de mots des « brèves » aux milliers de mots des articles de dossiers), relevant de domaines distincts - les rubriques (économie, politique, international, sport), et de genres multiples : biographie, chronique, chronologie, encadré, correspondance, entretien, nécrologie, opinion, portrait, rectificatif, revue de presse, tableau... Or la qualité des connaissances acquises dépend directement de la maîtrise des caractéristiques du corpus utilisé.
Dans la lignée des indications de EAGLES (Sinclair 1996) , sur la typologie des textes, une équipe constituée de chercheurs du LIMSI et de l'UMR 8503 propose de fournir une typologie plus fine des articles du journal Le Monde qui permette une vraie maîtrise des variations internes de cet ensemble de textes et des extractions raisonnées en fonction de la tâche d'ingéniérie linguistique visée.

Dernière modification le 15 Mars 1999 par Serge Fleury .