Corpus

Présentation du corpus initial

Chacun des fils RSS au format XML (structure de surface) est accompagné de sa version "textuelle" (structure profonde) au format Lexico 3. La version textuelle se caractérise par :
- un format texte brut ;
- des balises ouvrantes au début de chaque fragment textuel. Ces balises fournissent, à Lexico 3, des données temporelles (e.g. année, mois, jour, heure) afin d’effectuer des analyses lexicométriques ;
- des délimiteurs au début de chaque fragment textuel (e.g. §, $, /, \, ?, ¤).

Voici une capture de la structure profonde :

Voici une capture de la structure de surface :

Retour en haut de la page

Notre corpus

Création d'un format hybride

Nous avons travaillé sur les données de la structure de surface que nous avons mises au format de la structure profonde. En effet, notre corpus contient des balises ouvrantes et du texte brut qui correspond au contenu de la balise <description> de la structure de surface.

Voici la première version de notre corpus hybride :

Scripts utilisés

Pour parvenir au résultat ci-dessus, nous avons commencé par utiliser un script qui ne nous donnait pas de résultats satisfaisants. En effet, ce script utilisait une expression régulière qui ne nous permettait pas d’extraire tous les contextes obtenus dans la balise <description> des fils RSS. Nous n’obtenions que six mois sur douze de données textuelles. C’est pourquoi nous avons pris la décision d’intégrer dans ce script la bibliothèque XML::RSS de Perl . Cette bibliothèque permet d’extraire tout le contenu des balises <description> quelque soit la mise en forme des données dans le fichier XML.
Pour télécharger ce script, cliquez ICI

Cependant, en lançant ce programme pour la première fois, nous nous sommes heurtés à un problème de mal formation des fichiers XML. En effet, certains fichiers contenaient des liens vers des feuilles de styles XSL :
<?xml-stylesheet type='text/xsl' href='http://rss.feedsportal.com/xsl/fr/rss.xsl'?>
Comme ces feuilles de styles n’étaient pas physiquement présentes dans nos dossiers, il a fallu supprimer les liens vers ces feuilles pour éviter les erreurs de mal formation qui empêchaient la bibliothèque de fonctionner. Pour supprimer ces liens gênants, nous avons créé un autre programme qui a nettoyé en amont les fichiers contenus dans l’arborescence. Pour télécharger ce script, cliquez ICI

Ainsi, le premier script contenant la bibliothèque a pu tourner sur toute l’arborescence sans rencontrer d’obstacle. Nous obtenions alors une sortie au format Lexico3. Cependant, il restait encore des problèmes de codage. On trouvait des entités html et des entités décimales comme par exemple : &#eacute; qui code le é ou ' qui code le ‘. Il a donc fallu rajouter un bloc de nettoyage qui supprimait ces entités. Ainsi, nous avons créé un troisième script contenant uniquement ce bloc de nettoyage. Pour télécharger ce script, cliquez ICI

Nous avons alors obtenu une sortie totalement nettoyée.

On peut remarquer que nous n’avons pas extrait que les fils qui contenaient le mot crise mais également ceux contenant les mots ou les expressions régulières : subprimes, banque, bancaire, FMI, financ, récession, économi, monétaire, liquidité, croissance, bours, conjoncture, capital[^e], capitali, prix, marché, crédit, renfloue, inflation, taux, consomm, délocalis, immobilier. Nous avons choisi ces mots car ils apparaissaient dans le contexte du mot crise. On constate que certains mots sont tronqués, comme financ ce qui permet de récupérer plusieurs mots à la fois comme : finance, financer, financement. On voit aussi une expression régulière avec : capital[^e] qui permet d’exclure le nom féminin capitale. L’ajout de ces mots a permis d’obtenir une sortie plus complète.

Modification du corpus

En travaillant dans Lexico 3 sur les cartes de sections, nous nous sommes rendus compte que notre corpus était mal adapté. Les informations temporelles étaient trop redondantes. En effet, nous indiquions pour chaque contexte, l'année, les mois, le jour et le flux. Nous n'avons finalement gardé qu'une seule balise <année> car on ne travaille que sur un an. Pour les mois, nous n'avons gardé qu'une balise pour chaque mois et nous avons totalement supprimé les balises <jour> qui n'étaient pas pertinentes. Nous n'avons pas touché aux balises <rubrique>. On peut voir ci-dessous, une capture de la nouvelle version