All rights reserved
Ce projet de Master 1TAL, d’analyse de corpus, est réalisé dans le cadre du cours « Projet encadré » de Paris 3. Le travail consiste à étudier des mots dans des corpus non étiquétés.
Les mots d'analyse viennent d’une entrée lexicale étudiées par Jean Véronis de la compagne Romanseval. Ils ont été etudié pour déterminer leurs usages dans les corpus sans s'appuyer sur leurs déscritptions dans des dictionnaires.
Pour la suite de ce projet la démarche consiste à choisir des mots, qui existent dans les corpus, puis construire des cartes de sections avec l’outil Lexico3. A partir de la carte des sections, on recherche les cooccurrences contenues dans les carrés blues. A l'aide d'un graphe de ventilation on calcule la spécificité des termes.
Par cooccurence ici on entend la tendance d’un mot à en faire apparaître un autre. Ces mots ne sont pas liés par synonymies ou antonymie ni par contenance (hyperonymie ou méronymie) mais possède cependant un lien conceptuel.
L'analyse linguistique des cooccurrences peut être utile à des fins tels que la désambiguïsation lexicales et la recherche d’information.