#/usr/bin/perl #----------------------------------------------------------- <:encoding(utf-8)", "sortie-$rubrique-xmlrss.txt"); open(OUTXML, ">:encoding(utf-8)", "sortie-$rubrique-xmlrss.xml"); print OUTXML "\n"; print OUTXML "\n"; #---------------------------------------- &parcoursarborescencefichiers($rep); #recurse! close OUT; print OUTXML "\n"; close OUTXML; exit; #---------------------------------------------- sub parcoursarborescencefichiers { my $path = shift(@_); opendir(DIR, $path) or die "can't open $path: $!\n"; my @files = readdir(DIR); closedir(DIR); foreach my $file (@files) { next if $file =~ /^\.\.?$/; $file = $path."/".$file; if (-d $file) { print "position : $file \n"; &parcoursarborescencefichiers($file); #recurse! } if (-f $file) { if ($file=~/$rubrique.+\.xml$/) { print $i++," Processing of ", $file, "\n"; print "##------------------------------------------##\n"; #PARSING THE FILE--------xmlrss part my $rss=new XML::RSS; eval {$rss->parsefile($file); }; if( $@ ) { $@ =~ s/at \/.*?$//s; # remove module line number print STDERR "\nERROR in '$file':\n$@\n"; } #EXTRACTION-------------- else { foreach my $item (@{$rss->{'items'}}) { my $description=$item->{'description'}; my $titre=$item->{'title'}; my ($titrenettoye,$descriptionnettoye) = &nettoyage($titre,$description); if (exists $doublons{$titrenettoye}) { $doublons{$titrenettoye}++; } else { $doublons{$titrenettoye}=1; print OUT "TITRE : ", $titrenettoye, "\n"; print OUT "DESCRIPTION : ", $descriptionnettoye, "\n"; print OUT "--------------------------------------------------------------------------------------\n"; print OUTXML "\t\t\n"; print OUTXML "\t\t\t$titre\n"; print OUTXML "\t\t\t$description\n"; print OUTXML "\t\t\n"; } } } } } } } sub nettoyage { my $tt = $_[0]; my $desc = $_[1]; $tt = $tt . "." ; #add dots at the end of titles (?) $desc =~s/&/et/g ; #change et $tt =~s/&/et/g ; $desc=~s/^<;!\[CDATA\[//; #clean some words $desc=~s/\]\]>$//; $tt=~s/^<;!\[CDATA\[//; $tt=~s/\]\]>$//; $desc =~ s/'/'/g; $tt =~s/'/'/g; $desc =~s/"/"/g; $tt =~s/"/"/g; $desc =~s/<.+?>//g ; #get rid of balises $tt =~s/<.+?>//g ; return $tt, $desc; } #----------------------------------------------