Projet encadré - Boîtes à outils

La Boîte à Outils 1
Mais à quoi donc sert-elle ?

À partir des fichiers de surface et de profondeur obtenus grâce au flux RSS, il faut maintenant faire en sorte d'obtenir des fichiers lisibles mais surtout exploitables. Qu'est-ce qu'on entend par exploitables ? Simplement des fichiers à peu près lisibles par des êtres humains mais mieux encore, des fichiers avec lesquels on peut travailler.

Et comment fait-on ?

C'est très simple : un peu de programme Perl, et le tour est joué. L'avanatage avec les fichiers du Monde, c'est qu'ils sont tous formaté selon le même schéma. Ainsi, c'est très simple de pouvoir tous les traiter. Concrètement, qu'est ce que l'on veut comme résultat ? Là aussi c'est très simple : tout simplement extraire les informations brutes des fichiers. À savoir pour les fichier de surface, le titre et le résumé des articles, et pour les fichiers de profondeur, l'intégralité des articles.

Il y a un souci, non ?

En effet, il y a toujours un souci dans chaque projet. Dans le nôtre, c'est que les fichiers de profondeur du Monde sont très ... hétéroclytes (parce qu'il paraît que dire qu'ils sont moches, ce n'est pas très poli). Ils sont formatés avec une logique qui échappe à tous et on se retrouve donc avec du bruit. Le bruit c'est quoi ? C'est tout ce qu'on ne veut pas. On a essayé de faire le ménage, ne nous en voulez pas, mais dans toute tentative de nettoyage, il y aura toujours des bouts dont personne ne veut mais qui résisteront malgré les assauts répétés. Si vous trouvez donc des bouts de dates, d'url, ou même des symboles étranges, c'est tout à fait normal, bien que pas tout à fait voulu. Nettoyer plus, c'était passer plus de temps à faire un joli fichier qu'un fichier facilement exploitable : pas trop ce que l'on souhaitait donc. Gardons à l'esprit que le bruit n'est pas trop bruyant (une jolie métaphore pour dire qu'il n'y en pas trop) et qu'il ne devrait (en théorie) pas gêner nos futures expériences sur le corpus. C'est plutôt pas mal, non ?

Les scripts

Puisqu'il fallait traiter deux types de fichiers, nous avons donc fait deux scripts.

Dans le cas de la surface, on s'est intéressées aux balises. Chaque bout d'article se trouvait dans des balises item, chaque titre dans des balises titre, et chaque résumé dans des balises description. À partir de là, il suffisait simplement de faire une jolie expression régulière (que vous trouverez dans les scripts plus bas) afin de récupérer le texte et uniquement le texte compris dans ces balises.

Comme je le disais plus haut, c'était un peu plus compliqué pour les fichiers de profondeur. Nous avons là aussi utilisé une sorte d'expression régulière qui ne prenait que certains bouts du fichier (justement pour éviter le bruit).

Dans les deux cas, on obtient deux fichiers. Un fichier .txt qui contient tous les titres et les descriptions pour les fichiers de surface et "juste" les articles pour les fichiers de profondeur, puis un fichier XML qui rebalise bien comme il faut les titres, descriptions et articles pour respectivement la surface et la profondeur.

Le script pour les fichiers de surface et celui pour les fichiers de profondeur sont visibles juste ici.

Les résultats

Et puisqu'il paraît qu'une image vaut cent mots, vous trouverez ci-dessous tous les fichiers de résultats de cette première BAO. Réjouissez-vous de cela cependant, car c'est bien la seule fois que vous verrez le récultat de l'exécution d'une BAO sur toutes les catégories. Eh oui, certaines sont énormes, et les passer dans la BAO2 aurait pris une éternité et une place gigantesque !

Fichiers Surface
TXT	XML
3208	3208
3210	3210
3214	3214
3224	3224
3232	3232
3234	3234
3236	3236
3242	3242
3246	3246
3260	3260
3476	3476
3546	3546
651865	651865
823353	823353

Fichiers Profondeur
TXT	XML
3208	3208
3210	3210
3214	3214
3224	3224
3232	3232
3234	3234
3236	3236
3242	3242
3246	3246
3260	3260
3476	3476
3546	3546
651865	651865
823353	823353