Descriptions informées de mots de LM10


Pour permettre des comparaisons entre des descriptions/analyses différents, sont reprises les 60 entrées lexicales étudiées par Jean Véronis dans le cadre de la campagne d'évaluation en désambiguïsation sémantique Romanseval.


Pour chacune de ces entrées, on dispose des triplets Syntex dans lesquelles elle figure.

Pour améliorer le classement et la description de ces triplets, une étape consiste à étiqueter manuellement les têtes de liste des noms, adjectifs, verbes, etc.

Les fichiers (tabulaires) fournissant ces têtes de liste par fréquence décroissante ont le format :
<fréquence><partie du discours><lemme>
Ils sont donc aisément importables sous un gestionnaire de base de données (Access, MySQL, etc.), pour faciliter leur étiquetage.
Les fréquences indiquées sur-estiment les fréquences réelles. En effet, les triplets notent les dépendances élémentaires extraites par Syntex. Un même mot entre fréquemment dans plusieurs dépendances. Ainsi amélioration du cadre de vie donnera naissance à trois triplets : amélioration, r_EPI, cadre ; cadre, r_EPI, vie ; amélioration, r_EPI, cadre de vie. Si bien qu'amélioration et cadre figurent deux fois dans les triplets, alors que chaque mot n'apparaît qu'une seule fois dans les données de départ.

Partie du discours
nombre de lemmes
nombre de lemmes distincts
500 premiers
N
55 462 625
111 354
LM0Lemmes500PremiersN.txt
V
23 173 378
15 127
LM0Lemmes500PremiersV.txt
A
11 247 646
17 067
LM0Lemmes500PremiersA.txt
S
11 228 821
2 296 768
LM0Lemmes500PremiersS.txt
NP
5 131 621
214 000
LM0Lemmes500PremiersNP.txt

















Notes et pistes

Classement des noms

Résumés des triplets Syntex sur les 60 entrées de Romanseval dans LM10

Autres mots


Analyses

Propositions de classements


Entrées lexicales