#/usr/bin/perl
#usage : perl   .pl  repertoire-a-parcourir  rubrique
 #Le programme prend en entrée le nom du répertoire-racine contenant les fichiers  et le nom de la rubrique à traiter parmi ces fichiers
#ici extraire la rubrique une, soit 3208/3260
# Méthode 1 : REGEXP

#-----------------------------------------------------------
my $rep="$ARGV[0]";
my $rubrique ="$ARGV[1]";
$rep=~ s/[\/]$//;

#Ouverture des fichiers de sortie
#Un txt et un xml
open(OUT,">:encoding(utf8)","BAO1_$rubrique.txt");
open(OUTXML,">:encoding(utf8)","BAO1_$rubrique.xml");

#Écriture des balises XML d'en-tête
print OUTXML "<?xml version=\"1.0\" encoding=\"utf-8\" ?>\n";
print OUTXML "<corpus2020>\n";
my %dico_des_titres=();
#----------------------------------------

#Appeler de la fonction parcoursarborescencefichiers
&parcoursarborescencefichiers($rep);	

#----------------------------------------
#Écriture de la balise XML de la fin 
print OUTXML "</corpus2020>\n";

#Fermeture des fichiers
close OUT;
close OUTXML;
exit;
#----------------------------------------------

#Définition de la fonction parcoursarborescencefichiers
sub parcoursarborescencefichiers {
    my $path = shift(@_);
    opendir(DIR, $path) or die "can't open $path: $!\n";
    my @files = readdir(DIR);
    closedir(DIR);
    foreach my $file (@files) {
	next if $file =~ /^\.\.?$/;
	$file = $path."/".$file;
	if (-d $file) {
        #C'est une fonction récursive
	    &parcoursarborescencefichiers($file);	
	}
	if (-f $file) {
	    if ($file =~/$rubrique.+xml$/) {
		print $i++," Traitement du fichier ",$file,"\n";
		open(FIC,"<:encoding(utf8)",$file);
		$/=undef;  
		my $textelu=<FIC>;
		close FIC;
		while ($textelu=~/<item>.*?<title>(.+?)<\/title>.+?<description>(.+?)<\/description>/sg) {
		    my $titre=$1;
		    my $description=$2;
		    if (!(exists $dico_des_titres{$titre})) { 
			$dico_des_titres{$titre}=$description ;
            
			# Appel la fonction sous-programme de nettoyage 
			($titre,$description)=&nettoyage($titre,$description);
            
			# Ecriture des résultats en sorties 
			print OUT $titre,"\n";
			print OUT $description,"\n";
			print OUT "--------------------\n";
            
            # Ecriture des résultats en sorties et des balises
			print OUTXML "<item>\n";
			print OUTXML "<titre>$titre</titre>\n";
			print OUTXML "<description>$description</description>\n";
			print OUTXML "</item>\n";
		    }
		}
	    }
	}
    }
}
#----------------------------------------------

#Définition de la fonction nettoyage pour obtenir un texte brut
sub nettoyage {
    my $titre = $_[0];
    my $description = $_[1];
	$titre=~s/^<!\[CDATA\[//;
	$titre=~s/\]\]>$//;
	$description=~s/^<!\[CDATA\[//;
	$description=~s/\]\]>$//;
    $description=~s/&lt;.+?&gt;//g;
    $description=~s/&#38;#39;/'/g;
    $description=~s/&#38;#34;/"/g;
    $titre=~s/&lt;.+?&gt;//g;
    $titre=~s/&#38;#39;/'/g;
    $titre=~s/&#38;#34;/"/g;
    $titre=~s/$/\./g;
    return $titre,$description;
}
