Extraction des syntagmes

Identification des patrons

Pour extraire (plus ou moins) automatiquement la terminologie d'un domaine donné on utilise des patrons syntaxiques, c'est-à-dire des structures grammaticales récurrentes dans une langue. Les patrons syntaxiques typiques du français sont :

- NOM PREP NOM (ex : droit de vote)
- NOM ADJ (ex : actes délictueux)
- ADJ NOM (ex : pleine égalité)

Pour enrichir notre stock de patrons nous avons utilisé le programme d' "exploration textométrique" Lexico3 (développé par l'équipe SYLED/CLA2T) qui permet entre autres de repérer les segments répétés d'un texte. De ces observations nous avons tiré des patrons suivants :

- NOM KON NOM (ex : droits et libertés)
- NOM ADJ KON ADJ (ex : droits égaux et inaliénables)
- NOM PRP VER_infi (ex : liberté de manifester)
- NOM PRP PRO_PER VER_infi (ex : droit de se marier)
- ADJ KON ADJ NOM (ex : libre et plein consentement)

Mais également des patrons assez élaborés tels que :

- NOM PREP DET NOM ADJ KON ADJ (ex : protection des intérêts moraux et matériels)
- VER:infi ADV VER:pper PUN VER:pper KON VER:pper (ex : être arbitrairement arrêté , détenu ou exilé)

Ces derniers patrons ont toutefois été abandonnés car ils n'ont pas pu être extraits par Le Trameur. Ils posent également une question de méthode : est-il pertinent d'utiliser un patron qui n'extraira au mieux qu'un seul syntagme pertinent ?

Nota : Lexico3 nous a également permis de mettre au jour certains éléments d'une phraséologie particulière au domaine des droits de l'homme avec des séquences récurrentes telles que "toute personne a le droit de", "tout individu a droit à", "nul ne peut être", mais qui sortait un peu de notre projet.

Extraction des syntagmes

Le Trameur

Pour l'extraction de syntagmes nous avons utilisé le programme Le Trameur (développé par S. Fleury) qui utilise l'étiquetteur TreeTagger et permet d'extraire des patrons syntaxiques assez simplement :



Tri des syntagmes extraits

Une fois obtenues les listes de syntagmes extraits pour chaque patron il faut faire un tri manuel pour éliminer :
Le second tri n'est forcément évident, en effet le domaine des "droits de l'homme" n'est pas simple à définir. Il nous semble se trouver au croisement des domaines du droit, de la philosophie, de la politique et de l'administration : on y parle aussi bien d' "actes délictueux" que d' "esprit de fraternité", de "société démocratique" ou de "services sociaux". Nous avons donc procédé de manière assez empirique.

Nota : Nous avons fait le choix d'éliminer la série des syntagmes du type "droit de + V" ("droit de circuler", "droit de quitter", etc.) car elle n'était pas pertinente d'un point de vue linguistique : tous ces "droits" sont systématiquement accompagnés de compléments dont la structure syntaxique n'est pas régulière :

- droit de circuler + librement = ADV
- droit de quitter + tout pays = ADJ NOM
- droit de chercher + asile = NOM
- droit de changer + de nationalité = PRP NOM
- droit de fonder + une famille = DET NOM

>> voir la liste des termes

remonter