D’abord il a fallu définir un mot en tant que l’objet de la recherche et choisir les langues du travail. Ensuite, pour chaque langue il a fallu fournir une cinquantaine d’URLs contenant le mot en question.
La définition du néologisme ne m’a posée aucune problème. En effet, elle est formulée pour tous les trois langues de mon projet, soit officiellement ou pas. Par contre, organiser la recherche des URLs n’était pas si facile. Finalement, j’ai décidé de travailler sur la forme de la première personne en passé (I googled/j’ai googlé/? ??????) car ces formes s’utilisent en tous les trois langues et elles ne coïncident avec le nom de la compagnie.
Le programme que j’ai écrit sait suivre les URLs recueillis et traiter les pages correspondantes. En résultat, à partir de chaque page web on obtient le texte brut contenant le verbe “googler”, toujours encodé en utf-8. En plus, le contexte de chaque occurrence de notre verbe est stocké dans un fichier commun de chaque langue.
pour télécharger le script, ici pour voir le tableau des URLs et textes, ou ici pour consulter le blog du proget.
Presque fini! Les services Wordle.net et Trameur m’ont aidé à visualiser les résultats de récopilation des contextes. Cliquez ici pour voir les arbres et nuages des mots!