La réalisation

Réponses pratiques

natura naturata

-Le script bash a pour but de créer un tableau html pour organiser et présenter le contenu obtenu dans les étapes suivantes:

-朝花夕拾 fleurs du matin cueillies de soir: les moissons virtuelles de Wget.

Commande unix utilisé avec l’option wget -o pour aspirer les pages internet préalablement conservées dans des fichiers textes.

-Lynx: extraction textuelle.

La navigateur internet hypertexte Lynx est utilisé pour extraire le texte des pages web et les stocker dans des fichiers texte grâce à la l’option lynx -dump.

Le problème étant que les pages en chinois sont en général mal encodées en UTF-8, de telles sorte que des erreurs se produisent lorsqu’on voudra par la suite filtrer les occurrences avec mini-grep-multilingue.

Il a donc été plus pratique d’intégrer à ce dernier les étapes permettant de ne garder que le texte de chaque page html.

On élimine pour chaque ligne:

les commentaires

$ligne=~s{ <!(.*?)(--.*? --\s*)+(.*?)>}

{if ($1 || $3) {"<!$1 $3>";} }gesx;

les tags:

$ligne=~s{ <(?:[^>'"] *|".*?"|'.*?') +>}{}gsx;

-Le script Perl minigrep-multilingue et ses modifications: filtrage du contexte.

minigrep-multilingue

Permet la recherche d’un motif dans un texte en utf-8.

Les modifications apportées ont été les suivantes:

1.L’extraction du motif a été changée pour permettre de stocker plusieurs motif dans le fichier motif.txt permettant une recherche de type: occurrence de 自然 ou 天然.

Voici la partie originale

my $formein=<FILE0>;

chomp($formein);

$formein=~/MOTIF=(\w+)$/;

my $forme=$1;

utf8($forme);

print "Forme a rechercher : $forme \n";

close(FILE0);

Remplacée par:

while (<FILE0>) {

s/[\r\n]+//;

push @motifs, $_;

}

close FILE0;

$forme = join( '|', @motifs );

utf8($forme);

On extrait donc un motif par ligne et on obtient une expression de la forme 自然|天然| (...)

2.Par commodité un argument a été rajouté pour permettre de préciser le nom du fichier de sortie à chaque exécution du script.

my $fileout=$ARGV[3];

-Un 4ème argument a été rajouté pour designer un fichier contenant le motif de segmentation des contextes. Comme pour le motif recherché on peut entrer plusieurs motifs pour avoir par exemple des points ou des virgules ou des caractères fermants ou entrant.

La ponctuation en chinois et en japonais étant pour l’essentiel non-ASCII, on est obligé de recourir à cette méthode.

Le choix retenu par défaut est le point “。” car c’est le seul caractère de ponctuation qui soit d’une part codé de la même manière en Unicode chinois et japonais et surtout qui ait la même valeur sémantique ( ce qui ne serait par exemple pas le cas de la virgule, des guillemets qui ont un emploi différent).

-Le segmentation proprement dire s’effectue en concaténant les lignes dans une chaîne puis en les divisant selon le motif de segmentation choisi:

while(my $ligne=<FILEIN>)

{

utf8($ligne);

$texte .= " ".$ligne; #Concaténation

}

@segments = split ( /$bordure/, $texte); #tableau des segments délimités selon la bordure desiree