Travaux

L’introduction proposée par Isabelle Tellier pose les bases du traitement automatique des langues et de l’ingénierie linguistique d’un point de vue technique, informatique, où sont présentés tous les niveaux de description des langues naturelles et les moyens de modélisation informatique afin de soulever la complexité des phénomènes linguistiques lors de traitement de données à l’aide d’outils numériques.

  1. Introduction
  2. Dans ce chapitre, il est question d’un très bref rappel historique sur l’origine du traitement automatique du langage naturel dont le souhait est d’établir un dialogue "naturel" avec des machines. Ce qui sera détaillé dans le chapitre 2, dans une sous partie consacrée. Il est présenté en dernier lieu de ce chapitre 1 les différents autres chapitres du document.

  3. Traitement Automatique du Langage Naturel
  4. Ce chapitre est divisé en cinq parties : il est introduit par l’explication du lien entre linguistique et informatique en rappelant que le langage est “le propre de l’homme” et les langues naturelles représentent le système collectif appartenant à chaque communauté. Par conséquent, les langues naturelles s’opposent aux langues artificielles car ce sont des langages programmation. Toutes ont pour but de servir à la communication. Le but des linguistes est de trouver des universaux dans les structures des langues, bien quelles changent, se transforment. Celui des informaticiens dans le domaine du traitement automatique des langues naturelles est de les modéliser.

    La deuxième partie intitulée « Histoires croisées de la linguistique et de l’informatique » cherche à constituer des points de repères importants concernant soient l’une des disciplines soient les deux selon si l’auteur à introduit une distinction entre deux éléments conséquents dans leur discipline.

    Le troisième sous-chapitre traite des niveaux d’analyses du langage. Un schéma est présenté dans cette sous-partie afin de présenter les principales unités d’analyses et d’établir visuellement le lien avec l’informatique. Il permet de mettre en évidence certaines spécificités des langues naturelles, notamment l’axe syntagmatique et l’axe paradigmatique. L’intérêt du schéma, dont les notions principales en linguistique sont associées à des aspects conceptuels en informatique, permet de mettre en évidence les données et les traitements qui rendent possible la modélisation informatique.

    La quatrième partie intitulée « La chaîne de traitements « standard » » cherche à savoir comment concevoir la structure d’un système complet de compréhension du langage. Un nouveau schéma est alors présenté, représentant la chaîne de traitement classique de compréhension du langage de l’esprit humain. Delà, il faut s’en inspirer pour le reproduire avec les machines.

    Dans une cinquième partie, une liste de sites web est proposée autour du « Test de Turing » pour entrevoir la mise en application de ce qui a été vue dans les sous-chapitres précédents. Ces deux chapitres introduisent l’histoire du traitement automatique des langues naturelles et les nombreux travaux et moyens déployés pour mettre en oeuvre la possibilité d’établir une relation langagière homme/machine.

  5. Aspects acoustiques du langage
  6. Dans ce chapitre, ce sont les aspects oraux du langage qui sont abordés afin d’en introduire les concepts fondamentaux et d’illustrer certains modes de raisonnements linguistiques ou certains modèles informatiques qui seront repris à d’autres niveaux d’analyse.

    Une description linguistique est d’abord présentée dans une première sous-partie et dans une deuxième sous-partie, il s’agit de la modélisation informatique.

  7. Morphèmes, morphologie
  8. Comme dans le chapitre précédent, une description linguistique est d’abord présentée dans une première sous-partie et dans une deuxième sous-partie, il s’agit de la modélisation informatique.

    Dans la description linguistique, on constate tout d’abord les problèmes liés à la notion de « mot ». Pour se départager, la notion de morphème comme l’entend la linguistique contemporaine est préférable pour éviter toute confusion. Toutefois, les formes figées idiomatiques posent encore problèmes par le fait quelles ne forment qu’un seul et même morphème, ce qui est difficile à trancher.

    Deux types de morphèmes sont distingués : les morphèmes lexicaux (ou lexème) et les morphèmes grammaticaux. Pour les distinguer, deux critères : le critère sémantique et le critère énumératif. Mais là encore, une famille de mots chère au TALN est laissée pour compte : les entités nommées. Elles désignent soit des noms propres soit des valeurs numériques. Longtemps oubliés car n’étant pas présents dans les dictionnaires, ces mots sont tout de même essentiels car ils contribuent au sens des textes de façon déterminante. Du fait qu’elles appartiennent à une liste ouverte Le caractère référentiel des entités nommées est un problème connu en logique depuis longtemps et considéré comme délicat. Elles sont donc les considérer comme à une classe à part.

    C’est la morphologie qui se charge d’étudier comment différents morphèmes se combinent entre eux pour former des unités plus complexes appelées unités lexicales. Il y a deux façons d’opérer des combinaisons de morphèmes : la composition et l’affixation. Il s’agit d’une concaténation de morphèmes lexicaux. L’affixation, mécanisme complexe, fait interagir les morphèmes lexicaux (racine) et les morphèmes grammaticaux (affixes). Il y a deux types d’affixes : affixes dérivationnels, préfixes ou suffixes, et les affixes flexionnels.

    La notion de « mot » est assimilée à celle d’unité lexicale. Une unité lexicale peut-être associée à une forme lemmatisée. Le critère de la grammaticalité va donner lieu des jugements de grammaticalité portant sur la compétence du locuteur. « Si on admet l’existence d’une telle capacité, alors on dira que deux unités lexicales appartiennent à la même catégorie si on peut remplacer l’une par l’autre dans n’importe quel énoncé, sans modifier sa grammaticalité. […] Les catégories grammaticales sont des classes d’équivalence pour la relation de substituabilité en préservant la grammaticalité de l’unité de niveau supérieur (l’énoncé). »