© photo Jérémy St Peyre

Aux disparus...

Je mentionne ici quelques pistes abandonnées mais qui ne me semblent par totalement inintéressantes car elles témoignent entre autres du fait que les problèmes rencontrés dans ce projet sont aussi bien linguistiques qu'informatiques.

Premiers mots

Un test d'encodage pour le minigrep

Premiers mots

Avant de m'arrêter sur "société" j'ai pensé à d'autres mots qui présentaient une polysémie tout à fait convenable, ainsi que tout un tas de problèmes :

GLACE :

  • 1. la glace qu'on mange
  • 2. la glace que forme l'eau en dessous de 0°
  • 3. la glace d'une vitrine, d'un miroir

Seulement, les acceptions 2 et 3 sont problématiques. L'acception 2 présente, d'une part, de multiples traductions possibles en japonais (koori pour la glace sur laquelle on glisse ou celle qu'on met dans une boisson --mais qu'on traduira plutôt "glaçon" en français--, et plutôt des composés en aisu--de l'anglais "ice"-- pour les sports de glisse). Quant à l'acception 3, elle est finalement très peu usitée en français contemporain (on lui préfère le plus souvent "vitre" ou "vitrine" par métonymie, voire "carreau") et donc peu très présente sur le web. On aurait pu trouver des occurrences en spécifiant le contexte ("se regarder dans la glace" p.ex.), mais le contraindre ainsi est problématique puisque c'est justement ce contexte qu'on cherche à découvrir.

FONDATION :

  • 1. La fondation comme élément architectural qui soutient une construction
  • 2. La fondation comme évènement créateur ("Lors de la fondation de blablabla en 1825...")
  • 3. La fondation comme institution (Fondation Cartier p.ex.)

Sauf que l'acception 1 est, dans 99% des cas, utilisée au pluriel ("les fondations d'un immeuble") et que l'acception 3 domine de loin, en termes de nombre d'occurrences sur le web, les deux autres. 

Test encodage pour le minigrep

Ce petit test qui aurait dû servir à lancer le mini-grep-multilingue avec l'encodage approprié, mais rendu inutile par le dump de mes URL japonaises sur un autre ordinateur (les fichiers dumpés sont tous passés en UTF-8). Je le donne ici à titre d'exemple d'utilisation de la commande egrep : on récupère l'information donnée dans le charset (v. les premières lignes du code source d'une page web), c'est-à-dire l'encodage de la page, qu'on associe à la variable $code dont on teste la valeur avec une boucle if.
Notons par ailleurs que, tel qu'est défini le motif, ce test ne fonctionnera pas sur une page qui traite des encodages :)

#!/bin/bash
##Test permettant de lancer le minigrep avec le codage approprié

mkdir -p ./contextes/JP/sens
$i

code=$(egrep -i -o "(utf-8|euc-jp|Shift_JIS|iso-2022-jp)" ./pages_aspirees/JP/
sens$i/$j.html)    ##l'output de egrep (=nom de l'encodage) sert d'input au test if                                 
if 
test $code = Shift_JIS
   then perl ./programmes/minigrep/mini-grep-multilingue.pl "shiftjis" ./dump/JP/
sens$i/$j.txt ./contextes/motif_shiftjis.txt
elif 
test $code = euc-jp
    
then perl ./programmes/minigrep/mini-grep-multilingue.pl "euc-jp" ./dump/JP/sens$i/$j.txt ./contextes/motif_euc.txt
elif 
test $code = utf-8
    
then perl ./programmes/minigrep/mini-grep-multilingue.pl "UTF-8" ./dump/JP/sens$i/$j.txt ./contextes/motif_utf8.txt
elif test $code = ISO-2022-JP
    
then perl ./programmes/minigrep/mini-grep-multilingue.pl "ISO-2022-JP" ./dump/JP/sens$i/$j.txt ./contextes/motif_iso2022.txt
else
    echo "Encodage non reconnu"
fi
cp resultat-extraction.html ./contextes/JP/
sens$i/resultat-extraction_$j.html

haut de la page »»