CLA2T [U. DE PARIS 3, Sorbonne nouvelle]

  mkAlign - Mise au jour de la variation dans les textes par projections lexicométriques

 


Date : Mardi 15 Janvier 2008 18:40:56
Fichier source initial : ./EXPORT/ALIGN/MKALIGN-alignauto-source.txt
Fichier cible initial : ./EXPORT/ALIGN/MKALIGN-alignauto-cible.txt

 

Objectif : Repérage de la variation dans 2 versions d'un même texte par projection lexicométrique.
On trouvera en ligne des exemples de couples de textes disponibles dans 2 états "proches".

  • Exemple n°1 : 2 versions du texte de la conférence de presse de Nicolas Sarkozy le 8 janvier 2009 (voeux à la presse) ; pour en savoir plus sur ces 2 versions : billet de Philippe Gambette sur son blog.
  • Exemple n°2 : 2 discours de Ségolène Royal au cours de la campagne 2007. On trouvera derrière ce lien une première phase du processus de projection lexicométrique réalisé ici. Le processus intégré à mkAlign intègre un mécanisme d'alignement automatique réalisé avant la projection.


On trouve ci-dessous, le résultat final de la projection sur les 2 volets du discours sur l'alignement construit par mkAlign).

Méthode :
(1) Alignement automatique par recherche de cognats des 2 volets traités
(2) Projection (via mkAlign) sur les 2 volets d'un texte (ce lien donne à voir la concaténation des fichiers traités ici) :

  • des segments maximaux (cf le lien dans grille ci-contre donne la liste de tous ces segments, les communs sont marqués en rouge). Ces segments maximaux sont déterminés à partir du calcul des segments répétés de l'ensemble des 2 volets (fq >= 2, lg >= 2)
  • des sous-segments maximaux propres à chaque volet (cf le lien dans grille ci-contre donne à voir les sous-segments maximaux construits par le programme sur chacun des volets),
  • des hapax de l'ensemble des 2 volets,
  • des hapax associés à chacun des 2 volets du texte,
  • des formes propres à chaque volet.

Grille de lecture

hapax des 2 fichiers
hapax du fichier 1
hapax du fichier 2
forme propre (non hapax) à l'un des 2 fichiers

Liste des SMC : segments maximaux commun
(i.e chaîne comprise entre 2 délimiteurs)
Liste des s-SMC : sous-segments maximaux
(i.e chaîne maximale commune non-SMC)

 

NBVersion 1Version 2
(1) Ségolène Royal, présidente socialiste de la région Poitou-Charentes, reste largement en tête des présidentiables du Parti socialiste tout en faiblissant d'un point, selon un sondage réalisé par CSA et publié jeudi 6 avril par Le Parisien.
Ségolène Royal, présidente socialiste de la région Poitou-Charentes qui sera l'invitée du journal de 20 heures de TF1 elle répondra aux questions de Patrick Poivre d'Arvor, reste largement en tête des présidentiables du Parti socialiste tout en faiblissant d'un point, selon un sondage réalisé par CSA et publié jeudi 6 avril par Le Parisien.
(2) A la question posée sur les personnalités que les sondés préféreraient voir désignées par le PS pour la présidentielle de 2007, Ségolène Royal arrive en tête avec 41 %( - 1 point par rapport au précédent sondage réalisé par CSA, il y a trois mois).
A la question posée sur les personnalités que les sondés préféreraient voir désignées par le PS pour la présidentielle de 2007, Ségolène Royal arrive en tête avec 41 %( - 1 point par rapport au précédent sondage réalisé par CSA, il y a trois mois).
(3)
(4)
(5)