Projet encadré - Boîtes à outils

La Boîte à Outils 4
Tiens, une BAO qui fait des dessins... original

C'est pas des dessins, c'est des graphes. D'ailleurs, on les a obtenus avec ces outils. Tout est expliqué dans le Readme de l'archive, pas de panique. Revenons à nos graphes. Pourquoi on en veut ?

Vous vous souvenez de notre but ? Exactement, savoir si la profondeur est nécessaire pour analyser les articles ou si la surface suffit. Pour ça, on a choisi les deux seules catégories que l'on avait pour la profondeur (c'est à dire la 3260, sur les bouquins et la 651865 sur la technologie) et qui sont communes à la surface. L'outils que vous pouvez télécharger juste au dessus crée des graphes à partir des patrons que l'on a extrait. Il peut s'occuper du document en entier ou juste d'un seul noeud lexical (c'est ce que nous avons choisi de faire).

Les jolis graphes que voilà

Pour la catégorie 3260, on s'est basées sur le motif "livre?" et pour la 651865 sur le motif "réseau". Nous avons retenu les graphes qui nous donnaient le plus de résultats (car beaucoup nous renvoyaient une fenêtre vide).

Nous avons donc ces résultats pour réseau :

Comme on peut le voir, pas de grande différence : les résultat sur la profondeur et la surface sont les mêmes, à l'Ouest, rien de nouveau (c'était le quota de référence culturelle, maintenant qu'il est rempli, on peut continuer tranquillement).

Pour les livres, c'est une autre histoire. Voyez par vous-même :

Le premier graphe correspond aux résultat de Cordial, le second avec la surface étiquetée par TreeTagger et les deux derniers à la profondeur : le premier sur le MS nom-verb-prep-verb et le deuxième sur le MS nom-adj. Hormis le problème d'encodage (le vilain programme, on lui dit bien que c'est de l'UTF8, on enregistre au moins trois fois en UTF8 pour être bien sûre que ça l'est, mais le problème est toujours là, peu importe), on voit bien que les résultats sont très différents les uns des autres.

Conclusion

Non, la surface ne suffit pas. Bien évidemment, ce ne sont que des résumés, on ne peut pas s'attendre à avoir les mêmes résultats qu'un article en entier. Et si c'était le cas, il y aurait à craindre de la qualité de l'article. C'est tout à fait normal d'avoir des résultats aussi différents. Oui, mais alors pourquoi pour la 3260, les résultatssont identiques ? Eh bien tout simplement parce que c'est une catégorie qui n'est pas aussi remplie que l'autre. Là aussi, c'est tout à fait normal d'avoir des réponses qui se croisent (c'est même mathématique et rien de peut battre les mathématiques).

Au final, le résultat est bien l'hypothèse que nous nous posions dans nos petites têtes : la profondeur est nécessaire (et donc, les longues heures à regarder le programme s'ecécuter aussi alors qu'il étiquette les fichiers).