Sommaire

Actus mkAlign

07/12/2015 Dernière mise à jour de mkAlign, version : 2.0b160 (Téléchargement)

[02/2016]. mkAlign arrive sous MacOsX : une première distribution du mkAlign est désormais disponible pour MacOsX (cf Téléchargement)

[12/2013]. Atelier "exploration corpus" (mkAlign), organisé par le Consortium Corpus écrits , 10 décembre 2013, Université Paris-Diderot.

Présentation

La notion de corpus parallèle, qui émerge actuellement dans les travaux de différents chercheurs comme : corpus comportant plusieurs volets qui correspondent chacun à une version d’un même texte dans deux ou plusieurs langues différentes, renvoie à des situations connues de coexistence de textes présentant des liens forts dans leur structuration. Le traitement de corpus parallèles suppose une phase préalable d’alignement , c’est-à-dire de mise en correspondance dans chacun des volets de différents types d’unités textuelles [Zimina, 2004]. Aligner des corpus de textes originaux et de leurs traductions c’est mettre en relation des unités textuelles qui se correspondent. On peut établir des correspondances entre des unités de différents niveaux : mots, syntagmes, phrases, paragraphes, sections, etc.

Le programme mkAlign permet de construire, corriger et visualiser un alignement de deux textes via un éditeur à double entrée. Il permet d’afficher simultanément les textes source et cible pour y rajouter ou corriger des segments équivalents. Ce programme n’est pas (seulement) un aligneur automatique. Il est conçu pour aider l’utilisateur dans la création, l’alignement, la correction et la validation de textes traduits. L’utilisateur garde la maîtrise sur l’ensemble de ces processus, depuis la mise en correspondance initiale des segments équivalents jusqu’à l’export final du bi-texte produit. Il appartient à l’utilisateur de construire l’alignement et de définir son degré de précision (résolution). Cette résolution peut varier pour mettre en évidence les correspondances entre les segments textuels des différents niveaux. La notion de sauvegarde de session de travail (création de fichiers d’export/import de bi-textes au format xml et html) permet de commencer le travail sur un corpus à deux volets textuels, l’exporter au format désiré, puis le réimporter plus tard pour y apporter des modifications. La visualisation de l’alignement dans une représentation cartographique (bi-text map) offre plusieurs possibilités de gestion de corpus qui partagent des similitudes au plan traductionnel.

Documentation

Serge Fleury, Maria Zimina (EA2290 SYLED/CLA2T), "mkAlign, Manuel d'utilisation" : format PDF, format HTML. Cette documentation est aussi disponible (localement) après installation du logiciel.

Démo complète (animation flash)


Accès demo pleine page

Démo séquentielle :

    Démo 1 : Paramétrage de l'alignement (segmenteur de l'alignement, délimiteurs de formes, encodage des fichiers).

    Démo 2 : Principales fonctionnalités de mkAlign (figement de cellule, fractionnement et fusion de cellules par insertion du segmenteur au clavier ou via les modes MERGE et SPLIT) (1)

    Démo 3 : Principales fonctionnalités de mkAlign (figement de cellule, fractionnement et fusion de cellules par insertion du segmenteur au clavier ou via les modes MERGE et SPLIT) (2)

    Démo 4 : Principales fonctionnalités de mkAlign, recherche de motifs dans l'éditeur de l'alignement

    Démo 5 : les segments répétés dans mkAlign, génération, recherche de segments.

    Démo 6 : Création de la carte de l'alignement. Recherche de motifs dans la carte.

    Démo 7 : Carte de l'alignement. Recherche de cooccurrents d'une forme via les spécificités

    Démo 8 : Carte de l'alignement. Recherche des mots spécifiques dans une sélection de sections

    Démo 9 : Carte de l'alignement. Recherche des mots dans la carte. Export HTML : source avec motif, cible avec motif, bi-texte avec motif.

    Démo 10 : Carte de l'alignement. Chargement de la carte en tenant compte d'une partition prédéfinie.

    Démo 11 : Carte de l'alignement. Projection de formes ou de segments sur la carte.

    Démo 12 : Sauvegarde d'une session de travail, réimport d'une session

Rapports d'utilisation de mkAlign

Corpus Europarl (français/anglais)

Corpus Convention (français/russe)

Chantiers en cours

Repérage de la variation dans les textes par projections lexicométriques ou par comparaison sur alignement construit via mkAlign. Exemples de traitements réalisés :

Module de calcul des cooccurrents et des poly-cooccurrents : exemples de rapport construit

Diffusion de mkAlign

Contact

serge.fleury[at]univ-paris3.fr

Téléchargement

 mkAlign 2.00 (b160) , exécutable sous Windows : http://www.tal.univ-paris3.fr/mkAlign/setup-mkAlign.exe

 mkAlign 2.00 (b160), version MacOsX : http://www.tal.univ-paris3.fr/mkAlign/mkAlign-2.00-OSX.zip

Pour utiliser cette version de mkAlign, procéder de la manière suivante :

Corpus alignés au format TMX

Bartleby, I Would Prefer Not To : 2 volets (anglais, français). Alignement réalisé via mkAlign

Discours 1 de Grégoire de Nazianze : 2 volets (grec-ancien, géorgien). Alignement réalisé par : Bastien Kindt, Tamar Pataridze, CIOL-Institut orientaliste; Université catholique de Louvain (Louvain-la-Neuve, Belgique)

Corpus Discours d'investiture :

Discours de B. Obama le 04/06/2009 (Le Caire) : 3 langues (anglais, français, espagnol).

Discours de B. Obama le 04/06/2009 (Le Caire) : 2 langues (français, arabe).

Convention de sauvegarde des droits de l'homme et des libertés fondamentales : 3 langues.

Corpus DH v1.1 : 2 langues (source : Corpus Droits de l'Homme, LDI, UMR 7187).

La Divine Comédie. Partie 1 : l'Enfer : 5 langues (source : The Project Gutenberg).

Corpus Alice au pays des mesures :

Sources : anglais, japonais, français (traduction 1), français (traduction 2), italien, chinois, polonais, russe, allemand

Alignement Alice au pays des merveilles : 8 langues (anglais, japonais, français (2 traductions), italien, chinois, polonais, russe, allemand) ; lemmatisation via treetagger (EN, FR, IT), segmentation et lemmatisation via chasen (JP), segmentation via NLPIR (ZH).

Alignement Alice au pays des merveilles : idem que le précédent avec affichage sélectif des volets visés.

Chacun des volets de l'alignement est accessible ici (extraction via mkAlign à partir du TMX précédent) :

Kit d'alignement Alice : fichier au format RTF contenant dans une colonne la version de référence en anglais, et une colonne à compléter en y intégrant le nouveau volet à aligner.


Ulysse : version anglaise et traduction en français (Source : Ulysse, par jour (1) (jusqu'au 21/01/2013), Ulysse, par jour (2) (depuis le 21/01/2013))


Corpus Le Vieil Homme Aligné :

Le vieil homme et la mer (extraits) : version anglaise et 3 traductions en français (Source : embruns.net)

Le vieil homme et la mer (extraits) : 2 volets (volet français) traduction de François Bon (2012), (volet français) traduction de slate.fr (2012)

Le vieil homme et la mer (extraits) : 4 volets : (volet anglais) Hemingway (version originale), (volet français) traduction de J. Dutourd (1952), (volet français) traduction de François Bon (2012), (volet français) traduction de slate.fr (2012)

  • Alignement complet (disponible sur dee

    (dRmi0ca0371/hemingway-traduction-vieil-homme-mer">slatemeetlamer.xml">Alignement completAlignement complet (disponible sur dee

    Alignement complet (extraits choisis par les traduc MacOsX (

    (echerct dans l)small>)

Le vieil homme et la mer (extraits) : 4 volets : (volet anglais) Hemingway (version originale), (volet français) traduction de J. Dutourd (1952), (volet fraemingway (>DiscouroriginCwaycción "D dossQuit A la"ises"./corpus/alignement-slate-bon-dutourd-hemingway/alignement-slate-bon-hemingway-dutourd.xml">Alignement complet (disponible sur dee

(dRmi0ca0371/hemimbrunsent-slas.netmeetlamer.xml">Alignement completAlignement complet (disponible sur dee

(dRmi0ca0371/hemimbrunsent-slas.net/logbook/2012/02/18stify">es"
  • Alignement complet (disponible sur dee

    (dRmi0ca0371/hemimbrunsent-slas.net418948.ht"
  • Alignement complet (disponible sur dee

  • <"
  • .uginsp

    serge.fleury[at]univ-paris3.fr

    volet f3.u nogwafichakraifolets anglaoc.ide=ent_occurre&task=>d=35">wFul>ALLssieursser'O/B>s3.fKraifl.univ-parlash/ee J. Dpoianguesves di
  • s/carrod’un cernis entgrec-anolonais,'an>COOCSl.univ-Ot enckquote>

    mk'c = (sen-1200418856.htrod’développ "./corà 2 en utilisanwilliammChacnezicha">William MChacnez/li>.uginsp OPUSl.univ-OsXopenml">Démodes teeli href=.uginsp WIT3l.univ-pI>Web I.tal.ory ofrT anent.m namenrT anetionnrTalktlamea viali>ady-to-us3.fr/mkAliforli>snteur pursents ofrthe dc.title" al t anent.pstify"ofrTED talkt.uginsp

    p>serge.fleury[at]univ-paris3.fr

    gn="ceuli> es navw.tal.unirestunepulsion.net/sp="http://www.tal.univ-paris3.fr/sfleury/">Sergmétry e Flew.tal.unirla.unstunepulsion.nea8856apid>,

    a> T anetiokAliJ(ju = zip es navw.tal.unirestunepulsion.net/sp="http://www.tal.univ-paris3.fr/sfleury/">Sergmétry e Flew.tal.unirla.uUsrc="image

    Démo 3 : Principales fonct>mkA volets : (Seaponaid'utili), i/pAcder pes l">pr,iJ(ju éer Ilto:nimageodes d'A = (senStimast align-120Dsieéer Torpus de , Lydans">pr.ançais (Source : Alignement completBtp> es nav, André Sligni>Ali(isio.uirestunepulsion.neondance dans chacun des voletnumspecis-5/specisl8te> < . /filChacnez Williamw.tal.unirla.uL'c = (senoccurire ven-120ard n="just0418856.htrons cmx etikground-cvariation/dieurs deg>avec aa Cinquiè//wRépublh modifi"ieimise en correspondance dans chacun des volets de différe6/d'u/II-054aponaid'utili), i/pAcder pes l">p6,iJ(ju éer Ilto:nimageodes d'A = (senStimast align-120Dsieéer Torpus de , Besd (1ans">p6.s/filChacnez Williamw.tal.uniri>Affichagy/">Se/rgmétry e Flew.tal.unirla.uUsrc="imagep align=éthoden-1200418856.htrod’>mk'cv-paris3.fr/mk/p> Seaponaid'utili), i/pAcder pes l">p2,iJ(ju éer Ilto:nimageodes d'A = (senStimast align-120Dsieéer Torpus de , St e lons">p2.p

    p>iv-paris3.fr/i href="dc.title" codificat123705-c554130b3cd3upchacunmrsolet~fr/onis/jp/g">p0hLL p href=ngéns3.ien-120-CH-PL-zipd’inkAligniomerveapiermi6,owFuls 151–172. HLLp0.sAffichagy/">Se/rgmétry e Flew.tal.unir le buroche texer">timaveavec afés. s/carrod’ffre plusieurdes y">Chacun existence de textes.dificat123705-c554130b3cd3vhelm-tmx/">Affichagy/">Se/ED268-e 1 PLLssMZ_ign/corp/stmz/wFul6_ign/corp/26novion c_MZref="hsli-12 en frenter">Kit-Aeux ou hè (1). Alignemenp> st1:ALLssie en coplud="eamSorbsieu">eamSorbsieuris31:ALLssie >lonne rsse-gn)Affichagy/">Se/rgmétry e Flew.tal.unir leL, puis le ré> résdc.tilign="ground-cistence de textes.dificat123705-c554130bondance dans chacun des volets de différents types d’unités td'utili)"./rement Aln="j7er p(ju éepus/Ao:nimageodes d'A = (senstimast alin-120Dsieéer Torpus de ri>Affichagy/">Se/rgmétry e Flew.tal.unir leTopter des. La notius depaisaburoche texer">timaveavec a’és. s/carrod’ffre plusieurdes y">Chacun existence de textesdificat123705-c554130bALLsslm-tmxlyda2icha%7Ethoi/on/JS%20LTT%20 Seaponaid'utili), i/p le cder -1207er p(ju éepusEL_Kterche dn deRrd n=R-IT-Cn de c"Lndancf="h(1)b>mkAlcf="h(1)bfre plusi"zipvhelm-tmx-2/aiss/Ao:prèder (ISTI), Bruxs de , 8-10 seption cs p>Affichagy/">Se/rgmétry e Flew.tal.unir0131210/">. e hrefss/Ao:notius zipsmoanguesC. (éd)ext; p-cistence>serge.fleury[at]univ-paris3.fr

    Lienif" height="5" width="100%"/>

    Démo complète (ani>
    : el.

    : el.

    b>Fig.fr/lign/eursref=nD8D8D8;.ENG-JP/B>
    : el.

    : el.

    b>Fig.fr/2px; ursrefl>

    : el.

    : el.

    b>Fig.fr/3px; ursrefE"blue">nferno./te de)gENG-JP/B> : el.

    : el.

    b>Fig.fr/4px; ursref comptnferno./te de)gENG-JP/B> : el.

    : el.

    b>Fig.fr/5px; ursrefn de sect/Mis, jaENG-JP/B> : el.

    ver;background-colo-neme/6.fr"> images/interfi> : el.

    b>Fig.fr/6px; ursrefn de sect (I.

    : el.

    : el.

    b>Fig.fr/7px; ursrefSme via : el.

    : el.

    b>Fig.fr/8px; ursrefBi-./rist(rgENG-JP/B> : el.

    : el.

    b>Fig.fr/9px; ursrefS="./flasnferno./te de)gENG-JP/B> : el.

    : el.

    b>Fig.fr/l0px; ursrefV_Ktel>. : el.