MKCORPUS PROJECT MKCORPUS PROJECT MKCORPUS PROJECT
MKC Home
 

 

MkCorpus/CorpusPlusBuilder...

Module : WebFIX

WEBFIX

Ludovic Tanguy

ERSS - Université de Toulouse Le Mirail

E-mail : Ludovic.Tanguy@univ-tlse2.fr

 

WEBFIX est un programme permettant de repérer de nouvelles formes

attestées sur le Web en fonction de leur préfixe. Plus précisément,

étant donnée une terminaison productive (comme 'ien' ou 'esque' en

français, 'esco' en italien, etc.), WEBFIX va interroger un moteur de

recherche et repérer des formes nouvelles ayant cette terminaison.

Pour éviter le bruit évident d'une recherche trop brutale, WEBFIX a

besoin d'une liste de formes attestées, i.e. une liste de mots

extraite d'un dictionnaire, la plus étendue possible, sous format

électronique.

WEBFIX interroge dans la version actuelle le moteur ALTAVISTA,

(http://www.altavista.com), un des rares moteurs de recherche

permettant les troncatures. Toutefois, étant donné la technologie

utilisée par ce moteur, et la masse de données manipulées, WEBFIX a

également besoin d'une liste de triplets de lettres possibles à

l'initiale des mots recherchés. Une telle liste est fournie avec ce

programme pour le français et l'italien.

 

LICENCE :

WEBFIX est diffusé sous la Licence Publique Générale (GPL) et peut

être librement diffusé et modifié. Voir les fichiers gpl.txt et

gpl-francais.txt

 

PREREQUIS :

Une machine reliée à Internet et sous environnement UNIX (Linux,

Solaris, HPUX, ...). Ce programme devrait pouvoir fonctionner sous

Windows, mais n'a jamais été testé...

Le langage Perl, version 5.005 ou plus. Disponible gratuitement sur

http://www.perl.org

Les modules suivants pour Perl :

LWP::Simple

URI

(disponibles gratuitement sur http://www.cpan.org)

Le lancement de WEBFIX, quelle que soit la terminaison recherchée,

prend plusieurs heures, et représente un usage intensif du réseau de

la part de la machine sur laquelle il est installé. Il est donc

conseillé de le faire tourner de nuit...

RESSOURCES :

- Liste de formes attestées :

Des listes de mots (formes fléchies) sont disponibles gratuitement

pour la plupart des langues européennes à l'adresse suivante :

ftp://ftp.ox.ac.uk/pub/wordlists/

Si vous disposez de ressources plus riches, vous pouvez les

utiliser. Il suffit de placer dans un fichier, dans n'importe quel

ordre, les formes attestées.

- Liste de triplets :

Étant donné un lexique du type précédent, il est facile d'obtenir une

liste approximative des triplets de lettres possibles pour une

langue.

La commande suivante la fournit à partir d'un lexique :

cut -c 3 <lexique> | egrep "^..." | sort -u > <fichier-triplets>

 

UTILISATION :

La commande permettant de lancer WEBFIX le plus simplement est la suivante :

perl WEBFIX.pl -l <langage> -p <fichier de préfixes> -d <fichier de

formes attestées> <suffixe>

Le résultat étant assez volumineux, il est conseillé de le rediriger

vers un fichier (en ajoutant > <fichier résultat> après la commande

précédente). Pendant le déroulement du programme, des informations

sont cependant affichées sur le canal d'erreur standard (STDERR).

Les options possibles sont les suivantes :

-a pour forcer le respect des lettres accentuées dans les préfixes

et/ou les suffixes. Ceci ne fonctionne pour l'instant que pour le

français et l'italien. Les résultats sont plus restreints, mais vous

risquez de perdre des occurrences à cause de l'absence d'accents sur

les pages WWW.

-m Pour autoriser dans la recherche les termes en majuscules. A

utiliser avec précautions, car cette option résulte souvent en une

avalanche de noms propres...

PRÉSENTATION DES RÉSULTATS :

Le format de sortie de WEBFIX devrait se comprendre de lui-même, mais

sait-on jamais :

Pour chaque préfixe, dans l'ordre du fichier qui les contient :

PREFIXE : <xxx> (<nombre de pages trouvées par ALTAVISTA>)

ATTESTATIONS : <rappel des formes attestées ayant ce préfixe>

<occurrence> <adresse WWW complète>

Par exemple (suffixe "ien") :

PREFIXE : clé (7)

ATTESTATIONS : -clécyen -cléidocrânien -cléidomancien -clémencien

cléïdomastoïdien http://www.swissmed.ch/dossiers/nst/NST24.HTM

cléïdomastoïdien http://www.vbs-gbs.org/ms/ms9804/ms9804-07-1.htm

clétien http://www.conjuguer.fr/fmvm/cyberservice/arret/appclayesnotefactusport.cfm

PREFIXE : cli (28)

etc.

 

Une fois la recherche obtenue, il existe un filtre de mise en page des

résultats au format HTML, qui permet un plus grand confort de lecture.

Pour l'utiliser, tapez simplement :

perl fix2html.pl <fichier résultat WEBFIX> > <fichier.html>

Vous pouvez ensuite le visualiser avec un navigateur WEB quelconque.

ASPECTS TECHNIQUES

Pour éviter de passer des semaines à rapatrier des pages, WEBFIX se

contente des 20 premières pages trouvées par ALTAVISTA. Toutefois,

vous trouverez dans la présentation des résultats le nombre total de

pages trouvées. CE nombre est donc en général bien supérieur à celui

des attestations présentées par WEBFIX. De plus, de nombreuses pages

WWW indexées par ALTAVISTA ont disparu, et ne sont donc pas

accessibles pour WEBFIX. Enfin, un même mot, répété dans une même page

WWW apparaîtra autant de fois dans les résultats.

 

LISTE DES FICHIERS FOURNIS :

- LISEZMOI : ce que vous êtes en train de lire

- WEBFIX.pl : le programme Perl principal

- triplets-francais : le fichier contenant les triplets initiaux pour

le français. Cette liste a été établie à partir de la nomenclature du

TLF

- triplets-italiens : idem, mais pour l'italien.

- fix2html.pl : programme de mise en forme des résultats de WEBFIX au

format html

- dico-francais : liste de mots français provenant de

ftp://ftp.ox.ac.uk/pub/wordlists/

- dico-italien : idem pour l'italien

- gpl.txt : Texte officiel de la licence publique générale (en anglais)

- gpl-francais.txt : Traduction non-officielle du précédent texte.

BUGS ET AMÉLIORATIONS FUTURES

Les principaux problèmes proviennent d'ALTAVISTA. Celui-ci est

susceptible de changer le format de ses pages de résultats à n'importe

quel moment, et de semer la confusion dans le fonctionnement de

WEBFIX. En cas de problèmes répétés (des messages d'erreurs du type

"Problème avec ALLTAVISTA"), contactez-moi.

Sinon, bien entendu, la qualité des résultats est souvent

décevante. Nous avons travaillé, à l'ERSS, sur les suffixations en

"ien", "esque", "este", "itude", "at", "erie", etc. Le bruit ramené

par ces recherches est impressionnant, et est notamment dû à des

fautes de frappe (mots collés dans la plupart des cas).

Enfin, il est nécessaire de fléchir soi-même les suffixes, et donc,

pour un suffixe comme "ien", de lancer quatre requêtes différentes

(ien, iens, ienne, iennes).