Extraction


Le projet consiste à extraire des titres, descriptions et articles à partir des flux RSS du site Le Monde sur toute l'année 2015. Ces données sont ensuite à intégrer dans une arborescence XML rassemblant chaque article.

PREPARATION

On fait d'abord un repérage dans l’arborescence des fichiers sur lesquels nous devons travailler, afin d'en cerner la structure. Pour commencer on travaille sur un échantillon de 2008. Sa structure n'est pas identique à ceux de 2015 : aujourd’hui les fichiers du journal sont tous écrits sur une seule ligne, par exemple, mais les expressions régulières à utiliser seront les mêmes. L'objectif est de ne garder des fichiers RSS que les éléments qui nous intéressent.

On s’intéressera uniquement aux balises titre et description (la surface), ou plutôt à leur contenu que l'on récuprera à l'aide d'expressions régulières. Les balises article(la profondeuur) sont traitées en parallèle dans un autre fichier. :

				while ($ligne =~ m/<(title|description)>([^<]*)<(\/title|description)>/g)
					

NB : Pour rappel en Perl, $n (avec n > 0) est une variable pratique qui renvoi au contenu d’une parenthèse dans une expression régulière. $1 étant le contenu de la première parenthèse, $2 de la seconde et ainsi de suite. Si on ne veut pas compter une parenthèse on à la possibilité de précéder son contenu de ?:.

Tout cela est enin stocké d'une part dans un fichier txt et d'autre part dans un fichier xml, accompagné de balises pour chaque élément.

SCRIPTS:

Vous pouvez afficher ici le script de l'extraction de la surface et de la profondeur.

EXTRACTIONS SURFACE:

3208 : XML | TXT
3210 : XML | TXT
3214 : XML | TXT
3224 : XML | TXT
3232 : XML | TXT
3234 : XML | TXT
3236 : XML | TXT
3242 : XML | TXT
3246 : XML | TXT
3260 : XML | TXT
3476 : XML | TXT
3546 : XML | TXT
651865 : XML | TXT
823353 : XML | TXT

EXTRACTION PROFONDEUR:

3208: XML | TXT
3210 : XML | TXT
3214 : XML | TXT
3224 : XML | TXT
3232 : XML | TXT
3234 : XML | TXT
3236 : XML | TXT
3242 : XML | TXT
3246 : XML | TXT
3260 : XML | TXT
3476 : XML | TXT
3546 : XML | TXT
651865 : XML | TXT
823353 : XML | TXT


Renise Pierre et Justine Mouveaux - M1 PluriTAL - 2015-2016