Parole... Palabra... רוביד

L'histoire d'une recherche...

Pourquoi PAROLE ?

Le mot parole a été choisi pour une quantité de raisons simples. D'abord parce qu'il pouvait relier la linguistique au projet encadré, ensuite, parce qu'il présentait des ambiguités lexicales, enfin, parce qu'il se place comme sémantiquement neutre.

En effet, à l'origine la composition de notre groupe était différente et nous avions l'arabe en plus. A ce moment nous cherchions un mot et nous avions choisi colonies. Nous avions alors rencontré des problèmes car ce mot était politiquement connoté et donc le traiter s'est avéré difficile.

Puis, la composition de notre groupe a changé, Aurélie a remplacé Idri et nous avons par la même abandonné le traitement de l'arabe.

La langue source étant bien sur, le français. Nous avons choisi de baser nos recherches sur trois sens propres à ce mot. Le sens premier étant la parole en tant qu'entité vocale, le second étant l'expression donner la parole, et le dernier, tenir sa parole.

Les traductions équivalentes à ces termes sont donc :

En espagnol:
Parole: palabra
Tenir sa parole: cumplir con su palabra
Donner la parole: conceder la palabra a alguien

En hébreu:
Parole: רוביד (dibour)
Tenir sa parole: ורבדב ( bedibouro)
Donner la parole: רובידל ןימזהל ( leazmin le dibur)

Recherche des URLS

Le choix des URLS est une étape très importante dans la réalisation du projet, elle est d'ailleurs la première étape à réaliser correctement si on ne veut pas être handicapé dans les manœuvres plus tard et être obligé de tout recommencer.

Nous avons tenté tant que possible de trouver des URLS viables, qui ne disparaîtraient pas avant la fin du projet et pourraient être exploitables.

A part pour quelques exceptions rencontrées en espagnol avec des textes de loi et des documents officiels dont nous nous sommes vus interdire laccès, tous les liens se sont avérés sains et fonctionnaient correctement.

Pour pouvoir travailler correctement avec ces URLS il fallait alors séparer chaque liste d'urls selon les sens dans des dossiers différents.

Au bout du compte, nous avons donc crée sur Cygwin 9 dossiers via la commande mkdir dans lesquels nous avons stocké ces urls avant de les insérer dans des tableaux, les aspirer, les dumpers, et en extraire les contextes.

Parmi les détails qui ont leur importance dans le choix des Urls, il est plus judicieux de choisir des pages qui comportent un maximum d'occurrences et où le mot apparaît rapidement lorsqu'on ouvre la page. Ce qui permet par exemple d'identifier rapidement les caractères hébraiques même lorsqu'on ne sait pas les lire.

Automatisation des tâches

Toutes les manipulations de notre projet ont été réalisées dans le but d'un traitement automatique des pages.

Il s'agira donc pour nous de mettre en oeuvre une chaîne de traitement textuel semi-automatique, depuis la récupération des données jusqu'à leur présentation en faisant appel aux méthodes et outils informatiques nécessaires à leur réalisation (récupération de corpus, normalisation des textes, segmentation, étiquetage, extraction, structuration et présentation des résultats...)

C'est grâce aux scripts que nous avons pu traiter les pages automatiquement.

Nous détaillerons dans la partie scripts et tableaux les formules magiques.

L'automatisation des taches est l'un des buts de ce projet, à notre échelle cela représente déjà une économie de travail considérable, alors imaginez à quel point cela facilite les choses lorsqu'il sagit de traiter des millions dUrls.