Vendredi 20 Octobre 2006 22:36:17

Projection sur un fichier au format Lexico3 d'un fichier de segments répétés issus de Lexico3, de ses hapax et des 2 fichiers d'hapax associés aux 2 parties de textes constituant l'ensemble du texte.

Mode d'emploi du programme (à lancer dans une fenêtre MSDOS ou "Invites de commandes") :
projette-segments-hapax fichier-SR fichier longueur-plancher-segment frequence-plancher-segment fichier-hapax fichier-hapax1 fichier-hapax2

Ci-dessous, les différentes versions avec le résultat de la projection. En rouge les segments et en bleu les hapax.
Ces 2 types d'unités sont aussi encapsulés dans des balises appelées respectivement SR et HAPAX.

On distingue aussi les hapax du texte n°1 (qui ne sont pas hapax du n°2), ceux du texte n°2 (qui ne sont pas hapax du n°1) et les hapax du texte complet.

FICHIER 1

§ <MOIS="200605"><JOUR="20060505"><HEURE="2006050509">
Quelque 694 millions de personnes <HAP2>dans</HAP2> <HAP2>le</HAP2> <HAP2>monde</HAP2> âgées de <HAP2>plus</HAP2> de 15
<HAP2>ans</HAP2>, dont 152 millions aux Etats-Unis <HAP2>et</HAP2> 23,9 millions <HAP2>en</HAP2> France,
utilisent <HAP2>Internet</HAP2>, soit 14 % de <HAP2>la</HAP2> population mondiale de cette
tranche <HAP2>d</HAP2>'âge, selon une <HAP2>étude</HAP2> publiée, jeudi 4 mai, par <HAP2>ComScore</HAP2>
Networks.
<HAP1><HAP1-et-2>L</HAP1-et-2></HAP1>'<HAP1><HAP1-et-2>estimation</HAP1-et-2></HAP1> de <HAP1><HAP1-et-2>ce</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>groupe</HAP1-et-2></HAP1> de <HAP1><HAP1-et-2>recherche</HAP1-et-2></HAP1> sur <HAP1><HAP1-et-2>les</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>services</HAP1-et-2></HAP1> <HAP2>en</HAP2> ligne <HAP1><HAP1-et-2>est</HAP1-et-2></HAP1>
<HAP1><HAP1-et-2>basée</HAP1-et-2></HAP1> sur l'<HAP2>étude</HAP2> des <HAP1><HAP1-et-2>principaux</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>marchés</HAP1-et-2></HAP1> <HAP2>en</HAP2> <HAP1><HAP1-et-2>mars</HAP1-et-2></HAP1> 2006, y <HAP1><HAP1-et-2>compris</HAP1-et-2></HAP1> <HAP2>la</HAP2>
<HAP1><HAP1-et-2>Chine</HAP1-et-2></HAP1> <HAP2>et</HAP2> l'<HAP1><HAP1-et-2>Inde</HAP1-et-2></HAP1>. "<HAP1><HAP1-et-2>Aujourd</HAP1-et-2></HAP1>'<HAP1><HAP1-et-2>hui</HAP1-et-2></HAP1>, <HAP2>le</HAP2> <HAP1><HAP1-et-2>nombre</HAP1-et-2></HAP1> <HAP2>d</HAP2>'<HAP1><HAP1-et-2>Américains</HAP1-et-2></HAP1> <HAP2>en</HAP2> ligne <HAP1><HAP1-et-2>ne</HAP1-et-2></HAP1>
<HAP1><HAP1-et-2>représente</HAP1-et-2></HAP1> <HAP2>plus</HAP2> <HAP1><HAP1-et-2>qu</HAP1-et-2></HAP1>'un <HAP1><HAP1-et-2>peu</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>moins</HAP1-et-2></HAP1> <HAP2>d</HAP2>'un <HAP1><HAP1-et-2>quart</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>du</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>total</HAP1-et-2></HAP1> des <HAP1><HAP1-et-2>utilisateurs</HAP1-et-2></HAP1>
<HAP2>d</HAP2>'<HAP2>Internet</HAP2> <HAP2>dans</HAP2> <HAP2>le</HAP2> <HAP2>monde</HAP2> <HAP1><HAP1-et-2>contre</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>deux</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>tiers</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>il</HAP1-et-2></HAP1> y a <HAP1><HAP1-et-2>dix</HAP1-et-2></HAP1> <HAP2>ans</HAP2>", a <HAP1><HAP1-et-2>souligné</HAP1-et-2></HAP1>
<HAP1><HAP1-et-2>Peter</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>Daboll</HAP1-et-2></HAP1>, <HAP1><HAP1-et-2>président</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>directeur</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>général</HAP1-et-2></HAP1> de <HAP2>ComScore</HAP2> <HAP1><HAP1-et-2>Media</HAP1-et-2></HAP1> <HAP1><HAP1-et-2>Metrix</HAP1-et-2></HAP1>.

FICHIER 2

§ <MOIS="200605"><JOUR="20060505"><HEURE="2006050510">
Quelque 694 millions de personnes <HAP2>dans</HAP2> <HAP2>le</HAP2> <HAP2>monde</HAP2> âgées de <HAP2>plus</HAP2> de 15
<HAP2>ans</HAP2>, dont 152 millions aux Etats-Unis <HAP2>et</HAP2> 23,9 millions <HAP2>en</HAP2> France,
utilisent <HAP2>Internet</HAP2>, soit 14 % de <HAP2>la</HAP2> population mondiale de cette
tranche <HAP2>d</HAP2>'âge, selon une <HAP2>étude</HAP2> publiée, jeudi 4 mai, par (1)<HAP2>ComScore</HAP2>
Networks.