Bilan


L'expérience fait toujours avancer ! Voici un petit bilan et un exposé non exhaustif des pistes qui se sont ouvertes suite à ce tout premier projet.

Encodages

Il serait intéressant de faire une sorte de mapage des encodages utilisés selon les langues et selon les domaines. Je m'attendais à devoir convertir de sombres tables spécifiques aux caractères diacrités du vietnamien, or j'ai été étonnée de constater que 99% des pages web dans cette langue étaient encodées en UTF-8. La plupart de ces pages provenaient de sites de presse, ce qui peut éventuellement être un facteur.
Est-il possible d'imaginer une problématique d'étude qui puisse relier le choix de l'encodage d'une page web avec un désir de communication vers l'extérieur, un désir de rendre des informations accessibles (ou pas) ? ... Que révèle l'utilisation de la table Unicode au sujet des avancées de la mondialisation ? Ces questions qui appartiennent plutôt à un domaine sociologique large sont nombreuses et, afin d'éviter toute interprétation hâtive, me semblent rester ouvertes.

Réflexion sur la portée du projet

Pouvoir extraire un corpus filtré selon un mot présente des intérêts indéniables en termes de veille stratégique. Ici, nous nous sommes fixés à une forme linguistique unique. Ce signifiant possède plusieurs signifiés, et notre prélèvement de corpus s'est alors dispersé dans ces voies sémantiques différentes à la recherche d'une unique forme.
Il me semble que le travail d'extraction de contextes gagnerait en pertinence si nous émettions une restriction au moins au niveau d'une seule unité sémantique lorsque le mot est polysème. C'est un parti que nous aurions pu choisir de prendre dès le début, lorsque nous avions énoncé une problématique à thème plutôt jurico-politique. Nous étions par ailleurs tout à fait libres d'aiguiller ainsi notre recherche mais nous avons sans doute été impressionnés par l'étendue du possible en termes de recherches sur le web. A l'issue du projet et suite au constat de nos résultats, de nouvelles idées émergent : nous pourrions sélectionner des pages web très spécifiques pour effectuer des comparaisons problématisées. Les axes sont variés, et chacun soulève un nouvel angle d'analyse.

Conclusions linguistiques

Il me semble difficile de tirer des conclusions linguistiques en se basant uniquement sur les contextes que nous avons extraits. Le travail que nous avons effectué me paraît être davantage un véritable travail de défrichage. Le résultat obtenu constitue alors une base idéale de travail d'analyse linguistique plus profonde. Par ailleurs, nous remarquons l'avantage indéniable d'un traitement semi-automatisé qui nous offre la possibilité de traiter de grandes masses de corpus.
Dès lors le web entier constitue un corpus de la langue usuelle, numérisé, accessible (avec plus ou moins d'efforts !)... une vraie mine d'or pour linguistes qui semble nous tendre les bras !


T.L.