TD TAL Lorie den Os

Compte-rendu de lecture du livre d'Isabelle Tellier : Introduction au TALN et à l'ingénierie linguistique

Note personnelle : j'ai choisi de ne pas résumer les passages présentant la linguistique, étant donné que leur contenu a déjà été vu et revu au cours des trois semestres précédents. De fait, je me suis concentrée sur les idées nouvelles et les découvertes que j'ai faites dans cet ouvrage.

Cliquez ici pour télécharger le document.

Chapitre 1 – Introduction

Problématique : en quoi la capacité de langage est-elle si difficile à programmer ?
→ En raison de la complexité extrême des langues naturelles...
Années 70-80 : systèmes experts → on essaye de ramener le langage à des règles symboliques
Années 90 : méthodes statistiques pour fouiller des textes → émergence de l'ingénierie linguistique
(annonce du plan de l'ouvrage)

Chapitre 2 – Traitement Automatique du Langage Naturel (TALN)

1 – Intro : parler est le propre de l'homme. Définition de langue naturelle vs langue artificielle ou formelle. La linguistique s'occupe de trouver des universaux à ces 5000 langues différentes naturelles, l'informatique exploite le traitement automatique de l'information. Au carrefour, il y a l'application d'une démarche informatique à la linguistique :
- Quelles sont les données pertinentes et comment les coder ? (avec des éléments discrets, 0 et 1)
- Quels sont les traitements pertinents et comment les coder ? (avec des algorithmes)
    En bref, les linguistes identifient les données et traitements divers que suppose la maîtrise d'une langue, et les informaticiens tentent de les modéliser : voici le TAL.

2 – Historique

3 – Les niveaux d'analyse du langage : la double articulation semble être le propre du langage humain. Il y a trois niveaux de composition : phonèmes, morphèmes et énoncés, associés à deux niveaux de sémantique : la sémantique lexicale et la sémantique des propositions. « Ce qui caractérise les langues naturelles, c'est l'ensemble des niveaux de description et relations présents dans ce schéma ». En effet, le codage d'informations à partir d'unités discrètes permet des combinaisons infinies, à la différence du codage analogique.
    Mais la double articulation caractérise aussi les langages informatiques : niveau des règles d'écriture et niveau des unités lexicales d'un programme. Il y a également une sémantique.

4 – La chaîne de traitements « standard » : présentation d'un schéma plausible sur le fonctionnement de l'esprit humain selon des psychologues cognitivistes. Comprendre un énoncé reviendrait à le convertir en une représentation interne symbolique (→ analyse), et en produire un reviendrait à traduire une représentation interne en termes linguistiques (→ synthèse).
    Mais il semble plus efficace de se concentrer sur l'efficacité pragmatique des programmes sans se soucier de la réalité psychologique des fonctions langagières. On passe donc des modèles symboliques formels aux modèles statistiques fondés sur l'analyse de données.

Chapitre 3 – Aspects acoustiques du langage

    → présentation des outils et traitements des textes numériques
1 – Description linguistique : brèves présentations de la phonétique, phonologie et de certains phénomènes suprasegmentaux (tons, accents).

2 – Modélisation informatique : la modélisation de la langue orale n'est pas l'objectif principal, mais a de nombreuses applications courantes, en analyse (reconnaissance vocale et transcription automatique) comme en synthèse (lecture automatique).
    Il s'agit globalement de segmenter des données sonores en phonèmes et de leure faire correspondre des signes graphiques, ou l'inverse, segmenter des données écrites et leur faire correspondre des phonèmes. Le problème majeur semble être celui de la segmentation. Identifier les bons phonèmes, qui peuvent être réalisés de différentes façon suivant le contexte, le locuteur, etc, se révèle très difficile. Le contraire, qui consiste à faire les bons regroupements de phonèmes à partir des mots écrits, n'est pas évident non plus du fait de l'existence de nombreux homographes et lettres muettes, des abréviations, de la ponctuation...
    Les systèmes d'analyse posent plus de problèmes ; on tente de les résoudre à l'aide d'outils statistiques. La méthode la plus performante jusqu'ici est le n-gramme : on calcule la probabilité d'apparition d'un phonème en fonction de ceux qui précèdent, et de la probabilité de rencontrer une telle suite dans une langue donnée. Il y a des logiciels de reconnaissance vocale très performants de nos jours (Siri).

Chapitre 4 – Morphèmes, morphologie

1 – Description linguistique : brèves présentations des problèmes posés par la notion de mot, des différents types de morphèmes et de combinaisons de morphèmes, et de la notion de lemme.

2 – Modélisation informatique : il s'agit de trouver une manière efficace de stocker l'intégralité des formes fléchies d'une langue. Il y a deux approches possibles : la structure de données, qui liste des mots qui se ressemblent, et les automates finis, qui découpent les unités lexicales en morphèmes et les organisent selon des règles plutôt qu'en liste. Ils permettent de généraliser l'usage des mots et de faire des prédictions sur leur forme.
Il y a différentes façon de stocker des données plus efficacement qu'en listes. Les arbres à lettres permettent aux ordinateurs d'anticiper les mots que l'on tape, par exemple, mais ne rendent pas compte de la morphologie.
Un automate fini est constitué d'un vocabulaire fini V, d'un ensemble Q fini d'états (dont un final et un initial), et d'une fonction de transition f qui permet de passer d'un mot de Và l'état initial, à n'importe lequel de ses états finaux. On peut associer à chaque automate un graphe. Les automates sont particulièrement adaptés pour modéliser les affixations. Les expressions régulières permettent de mettre au point des langages aux combinaisons infinies pour les automates.

Chapitre 5 – Le niveau de la syntaxe

1 – Description linguistique : présentation du concept de l'analyse distributionnelle, supplanté par la notion de grammaticalité, introduite par Chomsky. Question de la définition des unités analysées : sont-ce des propositions ? Notion de syntagme, poblèmes rencontrés avec la structuration arborescente.

2 – Modélisation informatique : voyons dans quelle mesure la « théorie des langages » en informatique est applicable aux langues humaines. Pour coder un programme (une grammaire) capable de trier entre un nombre infini de phrases grammaticales et non-grammaticales, il faut avoir recours à la récursivité (capacité d'une chose à se répéter indéfiniment à l'intérieur d'elle-même, de faire des « boucles »). Des automates finis peuvent permettre de décrire de petites portions du français.
    Cependant, toute la grammaire du français ne peut être représentée par un énorme automate fini, pour trois raisons : 1) Pinker montre qu'un automate fini serait redondant (en français ou en anglais), du fait que certaines structures syntagmatiques identiques puissent se trouver dans des positions syntaxiques différentes : l'automate serait forcé de les répéter, ce qui intuitivement s'éloigne d'une modélisation de l'esprit humain. 2) les automates ne peuvent pas produire de structures arborescentes convenables. 3) le théorème dit « lemme de pompage » de Chomsky, qui donne une limite rigoureuse aux automates finis : ils ne peuvent décrire les propositions relatives enchâssées.
    Formalismes plus puissants : les réseaux de transitions récursifs (RTR) sont des ensembles d'automates qui répondent à l'argument de Pinker, qui rendent compte des structures arborescentes et qui peuvent permettre de décrire des propositions relatives enchâssées, mais ils ne sont plus vraiment utilisés depuis les années 80.
    Les grammaires formelles sont constituées de quatre éléments : V le vocabulaire terminal, N le vocabulaire non-terminal, S la grammaticalité, P les règles de production. G = (V, N, S, P)     Exemple :
    V = {le, la, chat, souris, dort, mange}
    N = {S, GN, GV, Det, Nom, Vtr, Vintr}
    P = {S →1 GN GV, GN →2 Det Nom, GV →3 Vintr, GV →4 Vtr GN, Det →5 le, Det →6 la, Nom →7 chat, Nom →8 souris, Vintr →9 dort, Vtr →10 mange}

Les langues naturelles appartiendraient à une classe intermédiaire entre type 1 et type 2 : les grammaires « légèrement sensibles au contexte ».
Autre type de formalisme : les grammaires minimalistes sont des modèles lexicalisés avec deux règles (fusion et déplacement), qui reposent sur l'hypothèse que certaines constructions syntaxiques sont le résultat de déplacements de constituants qui laissent des « traces », ce qui influerait sur l'ensemble de la phrase.

Découvrir le TAL