La base est décrite dans un format tabulaire : 1 ligne = description d'un mot (position + type) et de ses 61 annotations Descriptif des colonnes : pour les lignes 6 à 66 ci-dessous voir infra ------------------------------------------------------------------------------------------------------------ colonne 1 : position position sur la trame (segmentation) info nécessaire pour iTrameur colonne 2 : type (forme ou delim) soit un "mot" soit un délimiteur (espace en général ici) info nécessaire pour iTrameur colonne 3 :Token colonne 4 :POS colonne 5 : Lemma colonne 6 : Word_span colonne 7 : Mood colonne 8 : Tense colonne 9 : Person colonne 10 :Number colonne 11 : Gender colonne 12 : LabelDEP colonne 13 : LabelPLAIN colonne 14 : LabelJunc colonne 15 : LabelPara colonne 16 : LabelInherited colonne 17 : LabelJuncInherited colonne 18 : Layer colonne 19 : IU colonne 20 : Nucleus colonne 21 : Prenucleus colonne 22 : Gov_nucleus colonne 23 : Innucleus colonne 24 : Gov_innucleus colonne 25 : Postnucleus colonne 26 : Gov_postnucleus colonne 27 : IU_parenthesis colonne 28 : IU_graft colonne 29 : IU_embedded colonne 30 : Associated_nucleus colonne 31 : Intro_IU colonne 32 : Prominence_final colonne 33 : Prominence_initial colonne 34 : Hesitation colonne 35 : Pitch_avg colonne 36 : Pitch colonne 37 : Syllable colonne 38 : typeSyllable colonne 39 : Syllable_tone colonne 40 : Syllable_length colonne 41 : Syllable_length_avg colonne 42 : Speaker colonne 43 : Pause_length colonne 44 : Period colonne 45 : typePeriod colonne 46 : Period_tone colonne 47 : Package colonne 48 : typePackage1 colonne 49 : typePackage2 colonne 50 : Package_type colonne 51 : Package_tone colonne 52 : Group colonne 53 : typeGroup1 colonne 54 : typeGroup2 colonne 55 : Group_type colonne 56 : Group_tone colonne 57 : Foot colonne 58 : typeFoot1 colonne 59 : typeFoot2 colonne 60 : Foot_type colonne 61 : Foot_tone colonne 62 : Tmin colonne 63 : Tmax ------------------------------------------------------------------------------------------------------ Détail des colonnes : (source : infos projet Rhapsodie) voir aussi : http://www.tal.univ-paris3.fr/trameur/bases/rhapsodie2trameur-v8.pdf Text ID le nom du texte (D0001, M2006 etc.) Tree ID le numéro de l'arbre dans le texte Token ID le numéro du token dans l'arbre Token la forme du token. Des lexèmes composés de plusieurs mots orthographiques ont été segmentés en tokens individuels. Un token est donc un segment de la transcription compris entre deux blancs ou un blanc et un signe de ponctuation. Tous les caractères qui ne sont pas des lettres (les espaces, les tirets et les apostrophes) sont considérés comme des tokens individuels aussi. Speaker l'identifiant du locuteur. En cas de chevauchement, on peut avoir plusieurs locuteurs (annotés alors \$L1-\$L3 par exemple). Word span la position du token dans le mot forme. La valeur est soit B (begin) pour le premier token d'un mot, soit I (inner) pour les tokens qui en sont pas les premiers tokens du mot. Word form le mot-forme auquel appartient le token. Dans le cas d'un mot forme comprenant plusieurs tokens, le mot-forme est uniquement marqué pour le premier token. Lemma le lemme du lexème auquel appartient le token. Dans le cas où il y a plusieurs tokens qui font partie du même lexème, le lemme n'est pas répété : le lemme est écrit dans cette colonne pour la ligne correspondant au premier token du lexème POS la catégorie morpho-syntaxique du mot auquel appartient le token parmi N, V, Adj, Adv, I, P, D, Cl, Pro, CS, Qu. Mood le mode pour les verbes parmi ‘indicative’, ‘subjunctive’, ‘imperative’, ‘past_participle’ et ‘present_participle’. Dans le cas où la forme est ambigüe, les deux possibilités de mode sont indiquées (ex : indicative/subjunctive). Tense le temps grammatical du verbe parmi ‘present’, ‘future’, ‘conditional’, ‘imperfect’ et ‘perfect’. Le temps est marqué uniquement pour les verbes qui ont pour mode ‘indicative’. Person la personne grammaticale pour les verbes et les pronoms personnels, (‘1’, ‘2’ ou ‘3’). En cas d'ambigüité, les personnes possibles sont toutes écrites séparées par des barres obliques (ex : ‘1/2/3’). Number le nombre grammatical (‘sg’ ou `pl’ ou `sg/pl’ en cas d'ambigüité) pour les verbes conjugués, les noms, les adjectifs, les pronoms et certains mots qu- (quel, quels, laquelle etc.). Gender le genre grammatical (`masc', `fem' ou `masc/fem' en cas d'ambigüité) pour les noms, les adjectifs, les participes passés et certains mots qu- (quel, quels, laquelle etc.). ID dep le numéro du gouverneur par dépendance. Le numéro du gouverneur correspond à la colonne Token ID. Dans le cas où un gouverneur est constitué de plusieurs tokens, c'est le Token ID du premier token qui est pris comme numéro de gouverneur. Ce principe tient aussi pour les autres types de liens de dépendance. Type dep le type de lien de dépendance correspondant à ID dep. ID plain le numéro du gouverneur par dépendance `primitive'. Type plain le type de lien de dépendance (primitif), correspondant à ID plain (correspondant aux liens pred, root, sub, dep, obj, obl, ad). N.B. Il ne peut y avoir qu'un seul type de dépendance primitive et un seul gouverneur primitif par token. ID para le numéro du gouverneur par lien paradigmatique. Type para le type de lien paradigmatique (parmi les types para_disfl, para_coord, para_intens, para_dform, para_reform, para_hyper, para_negot) N.B. Il ne peut y avoir qu'un seul type de dépendance paradigmatique et un seul gouverneur paradigmatique par token. Gov inher le numéro du gouverneur par lien hérité. Type inher le type de lien hérité (parmi pred_inherited, root_inherited, sub_inherited, dep_inherited, obj_inherited, obl_inherited, ad_inherited). N.B. Il ne peut y avoir qu'un seul type de dépendance par token, mais il peut y avoir plusieurs gouverneurs par dépendance héritée. Dans ce cas, les numéros des gouverneurs sont séparés par une virgule. Ex : Gov junc le numéro du gouverneur par lien `junc' (de jonction) Type junc le type de lien junc - il n'y en a qu'un seul, donc ceci correspond toujours à junc. Cette colonne est ici pour l'uniformité du tableau. Gov junc-inher le numéro du gouverneur par lien `junc inherited’ (de jonction héritée) Type junc-inher le type de lien junc inherited - il n'y en a qu'un seul, donc ceci correspond toujours à junc_inherited. Cette colonne est ici pour l'uniformité du tableau. Layer l'appartenance à un entassement. Dans cette annotation, les différents niveaux d'entassement sont écrasés. IU l'appartenance à une unité illocutoire (UI, ou Illocutionary Unit en anglais). Cette information est bien fournie au format BILOU, mais on note que pour cette unité, la valeur O n'est pas utilisée du fait que tous les tokens font nécessairement partie d'une UI. Nucleus l'appartenance à un noyau. Prenucleus l'appartenance à un pré-noyau. Gov prenucleus l'appartenance à un pré-noyau régi, c'est-à-dire qui fait partie de la même unité rectionnelle que l'UI à laquelle il est rattaché. Innucleus l'appartenance à un in-noyau. Gov innucleus l'appartenance à un in-noyau régi. Postnucleus l'appartenance à un post-noyau. Gov postnucleus l'appartenance à un post-noyau régi. IU parenthesis l'appartenance à une UI parenthétique. IU graft l'appartenance à une greffe, qui correspond généralement à un discours rapporté ou bien à des séquences qui contribuent à remplir la position syntaxique d'un élément recteur. IU embedded l'appartenance à une unité enchâssée qui ne correspond pas à une UI (alors que c'est le cas de la greffe). Associative nucleus l'appartenance à une liste fermée de marqueurs discursifs établie pour le projet. Intro IU l'appartenance à une unité qui permet d'introduire une UI. Period l'appartenance à une période intonative. Cette information est donnée au format BILOU (décrit dans l'introduction de la section précédente) sans le O comme c'était le cas pour l'UI (28), puisque, de la même manière, tout token fait partie d'une période intonative. On y trouve toutefois un détail supplémentaire : en plus de marquer la position du token dans la période, chaque valeur peut également indiquer s'il s'agit d'une période tronquée à gauche (-B, -I, -L, -U), à droite (B-,I-,L-,U-), des deux côtés (-B-,-I-,-L-,-U-). Period tone le profil tonal (ou contour intonatif) de la période intonative dans laquelle se trouve le token. Package délimitation des paquets intonatifs en unités au format BILOU (sur le schéma des périodes et toujours sans le O puisque tout token fait forcément partie d'un paquet intonatif) Package_type le type de paquet intonatif dans lequel le token se trouve parmi filled-dis, filled-pause, included, lone, lone-dis-strong, motherless, motherless-dis-weak, silent-pause, ou tail. Package tone le profil tonal (ou contour intonatif) du paquet intonatif dans lequel se trouve le token. Group délimitation des groupes rythmiques en unités au format BILOU (toujours sans le O puisque tout token fait forcément partie d'un groupe rythmique) Group_type le type de groupe rythmique dans lequel le token se trouve parmi dis-strong, dis-weak, filled-dis, filled-pause, silent-pause, strong, tail, ou weak. Group tone le profil tonal (ou contour intonatif) du groupe rythmique dans lequel se trouve le token. Foot délimitation des unités de pieds métriques au format BILOU (toujours sans le O) Foot_type le dernier pied métrique du token. à l'instar du groupe rythmique, il peut être annoté dis-strong, dis-weak, filled-dis, filled-pause, silent-pause, strong, tail, ou weak. Foot tone le profil tonal (ou contour intonatif) du dernier pied métrique du token. Syllable délimitation des unités syllabiques au format BILOU (toujours sans le O) analysées dans Syllable tone. Etant donné que l'on n'étudie dans ce tabulaire que la dernière syllabe de chaque token, on note simplement U pour un token constitué d'un mot ou d'une syllabe, mais on regroupe plusieurs mots constituant un seul token (d+'+abord), ou encore plusieurs tokens constituant une unique syllabe (ex : de la [dla]). Syllable tone le profil tonal (ou contour intonatif) de la dernière syllabe du token. Prominence initial le degré de proéminence de la premiére syllabe du token. Une proéminence peut être annotée W pour Weak ou S pour Strong. Dans le cas où cette syllabe n'est pas proéminente, elle peut avoir comme valeur 0, _ (pause) ou encore % (syllabe inaudible ou non transcrite en raison d'un chevauchement). Prominence final le degré de proéminence de la dernière syllabe du token. Elle peut avoir les mêmes valeurs que pour la proéminence initiale. Hesitation marquée H pour la particule \euh" ou bien pour une syllabe hésitante,_ (pause) ou bien % (mot inaudible ou non transcrit en raison d'un chevauchement). Pause length la durée de la pause (en s), indiquée au niveau du token qui la précède. Autrement dit, si cette donnée est vide pour un token donné, alors il n'est pas suivi d'une pause. à noter que dans le cas précis d'un chevauchement et si les paroles du locuteur principal sont transcrites en premier, la longueur de la pause est indiquée sur le dernier mot, à la _n du chevauchement mais on a ajouté le signe dièse sur la ligne du mot après lequel on observe réellement une pause. Ce choix a été fait afin de préserver un alignement pertinent avec les différentes unités d'analyse, notamment la période. Tmin le temps de début de chaque token (ou le cas échéant, du chevauchement) au sein de son échantillon. Tmax le temps de fin de chaque token (ou le cas échéant, du chevauchement) au sein de son échantillon. Syllable length la durée de la dernière syllabe du token (en ms). Syllable length avg la durée moyenne de cette syllabe (en ms). Pitch la hauteur (en demi-tons) de cette syllabe. Pitch avg la hauteur moyenne (en demi-tons), calculée sur un empan de quelques syllabes précédant et suivant la dernière syllabe du token. Les annotations sont réutilisées telles quelles par le processus de transcodage des données rhapsodie initiales vers le Trameur ou iTrameur. Les annotations de dépendance sont réutilisées 2 à 2 pour construire respectivement une seule annotation (de type relation) qui est réécrite par exemple sous la forme : Type_rection(Gov-rection). De même, les annotations prosodiques (Group, Period, Package, Foot, Syllable) sont utilisées pour construire d’autres annotations par croisement d’annotations sur chacun des groupes d’annotation visés. Les annotations de dépendance sont fusionnées deux à deux sous la forme d’une relation marquée de la manière suivante : RELATION(CIBLE) (cf documentation Trameur) RELATION est une chaîne portant le nom de la relation visée CIBLE est une valeur numérique pointant vers une position de la Trame Pour certaines annotations prosodiques (Period, Group, Package, Foot, Syllable), une annotation supplémentaire est créée par concaténation d’autres informations : typePeriod = Period + Period_tone typeGroup1 = Group + Group_type typeGroup2 = Group + Group_type + Group_tone typePackage1 = Package + Package_type typePackage2 = Package + Package_type + Package_tone typeFoot1 = Foot + Foot_type typeFoot2 = Foot + Foot_type + Foot_tone typeSyllable = Syllable + Syllable_tone