La vie multilingue de la "dépression nerveuse"

sur le web

Et si la dépression nerveuse était une construction socio-culturelle?



PRÉSENTATION

Qui sommes-nous?

Nous sommes deux étudiantes en Master 1 en Traitement Automatique des Langues (TAL). Ce diplôme est délivré par trois universités partenaires: l'Université Paris Nanterre, l'Insitut National des Langues et Civilisations Orientales (INALCO), l'Université Sorbonne Nouvelle.

Wissal Alammasse:Université Paris Nanterre

Gaëlle Messé:Université Sorbonne Nouvelle

Le projet?

Notre projet, qui mêle la linguistique et la programmation, consiste à analyser le contexte sémantique d'un mot ou d'un groupe de mots, dans un corpus multilingue en ligne. Il s'agit de mettre en évidence d'éventuelles différences interlinguistiques. La constitution du corpus a nécessité l'élaboration d'un programme. Les analyses linguistiques ont fait appel à l'outil textométrique iTrameur, développé par Monsieur Serge Fleury. Ce site est le fruit de notre travail, il comporte les données récoltées, notre programme et nos analyses linguistiques.



HYPOTHÈSES

L'expression choisie

Notre travail porte sur l'expression "dépression nerveuse", que le monde occidental définit comme une maladie. Mais s'agit-il d'un concept universel? La réalité à laquelle renvoie un terme langagier n'est jamais une évidence intangible. La langue construit une certaine représentation du monde et entretient des rapports étroits avec l'histoire et la culture. Le terme "dépression" ou "dépression nerveuse" naît en Europe, tout comme les domaines de la psychiatrie et de la psychologie. Actuellement, les connaissances dans ce domaine sont mondialement partagées. Il existe un ouvrage de référence, dont se servent les praticiens dans le monde, le DSM-5 (Diagnostic and Statistical Manual of Mental Disorders), qui répertorie et décrit les symptômes de toutes les maladies mentales connues. Ce savoir s'échange entre des spécialistes, mais qu'en est-il des représentations des locuteurs non experts, qui possèdent un héritage culturel différent de l'occident?

Les langues analysées

Notre corpus multilingue comporte deux langues parlées en occident: le français, l'anglais et une langue orientale: l'arabe.

Le type de données

Nous l'avons constitué à partir de blogs et de forums en ligne (une cinquantaine de pages html par langue), afin d'observer l'environnement textuel de l'expression "dépression nerveuse", dans les commentaires rédigés par des internautes non-spécialistes.

Les hypothèses

Nous pensons observer des similitudes dans les corpus en anglais et en français. Nous nous attendons à trouver un champ lexical médical (symptômes, noms de traitement, termes désignant la psychologie ou la psychiatrie) dans les données contextuelles.

Suite à des échanges avec des locuteurs de la langue arabe, qui ont exprimé une vision "dépréciative" de la dépression nerveuse (inexistence de la maladie, association avec l'imaginaire), nous pensons que le contexte lexical de la dépression nerveuse aura une connotation péjorative.



SCRIPT

Voici le programme construit pour notre projet. Script disponible ici. Pour plus de détails concernant l'écriture du script, vous pouvez consulter notre blog de travail

Étapes du script:

1. Création de trois fichiers contenant les URLs de chaque langue.

2. Création de tableaux d'URLs pour chaque langue, avec un programme (langages html et bash) incluant les opérations suivantes:

- l'incrémentation de la numérotation des tableaux

- l'incrémentation de la numérotation des URLs

- la récupération du contenu textuel des URLs téléchargées localement

- la récupération du code retour http des URLs

- la récupération de la valeur de l'encodage des URLs

- le transcodage des URLs non encodées en UTF-8

- le calcul des occurrences des mots-clefs

- l'extraction des contextes autour des mots-clefs au format texte brut

- l'extraction des contextes autour des mots-clefs dans un format lisible

- la construction d'un index hiérarchique

- la construction de bigrammes





RÉSULTATS

L'analyse des corpus repose sur des mesures textométriques obtenues avec le logiciel iTrameur. Nous avons utilisé les fonctionnalités suivantes:

- le dictionnaire, qui contient la fréquence des mots

- le réseau de cooccurrents, c'est-à-dire les mots employés avec un mot-clef

- le concordancier, qui affiche la ligne dans laquelle apparaît un mot avec son contexte.



Analyse du corpus en Anglais

Mots-clefs: nervous breakdown, mental breakdown, depression, depressed, depressive.

Le dictionnaire relève deux classes sémantiques principales (les "mots-vides" étant ignorés), parmi les mots les plus fréquents: des termes qui relèvent du champ lexical du travail et des unités qui renvoient à la médecine ou à des symtômes.

Les mots fréquents: "nervous brekadown", "anxiety", "treatment", "work", "job" , "depression", "mental", "stress", "working", "hospital", "therapy", "medication".

Les concordanciers et le réseau de cooccurrents du terme "depression" corroborent globalement ces données. Dans ce dernier, le lexique médical est prépondérant.

Quelques exemples de mots fréquents

Le réseau de cooccurrents du terme "depression"





Analyse du corpus en Français

Mots-clefs: dépression(s), dépression(s) nerveuse(s), depression, depression nerveuse, dépressif(s), dépressive(s).

Dans la liste des mots les plus fréquents du dictionnaire, le lexique médical est assez présent (on ne tient pas compte des "mots-vides"), comme dans le corpus en anglais.

Les mots les plus fréquents: "dépression", "psy", "psychiatre", "maladie", "médecin", "traitement", "médicaments", "antidépresseurs", "suicide", "troubles", "psychologue".

Le réseau de cooccurrents fait apparaître des termes utilisés dans le domaine médical, explicitement ("diagnostiqué", "pathologie", "guérit") ou implicitement ("chronique", "sévère", "majeure").

Quelques exemples de mots fréquents

Le réseau de cooccurrents du terme "depression"



Le sujet des contextes du mot "dépression" concerne surtout le ressenti des internautes et la thérapeutique.

Le concordancier du terme "dépression"





Analyse du corpus en Arabe

Mots-clefs: الاكتئاب(la dépression), الإكتئاب (la dépression), اكتئاب (dépression), إكتئاب (dépression).

On ne retrouve pas de termes à connotation péjorative dans l'environnement de ces mots-clefs. Parmi les mots les plus fréquents, on relève des termes qui désignent des états émotionnels. En revanche, contrairement aux corpus anglais et français, le dictionnaire fait apparaître aussi un lexique religieux et spirituel.

Les mots fréquents: حياة (vie), الانسان (humain), الله (Dieu), الايمان (foi), الصلاة (prière), الحزن (tristesse)

Dans les exemples suivants de mots fréquents, on trouve: الله (dieu), الهم (soucis), حزن (tristesse), الحياة (vie), اعراض (symptômes), الانسان (humain), نفسي (psychique). Le réseau de cooccurrents fournit, dans l'ensemble, les mêmes données.

Quelques exemples de mots fréquents

Le réseau de cooccurrents du terme "depression"



D'après les résultats du concordancier, le mot "الاكتئاب" est généralement précédé des mots: "الحزن", "الهلع","الكرب",""الوسواس", "القلق", "الضيق","الهم", qui signifient respectivement : "tristesse", "panique", "chagrin", "obssession", "anxiété", "détresse" , "inquiétude". Ces mots sont souvent suivis de l'expression: "او ما يسمى بالاكتئاب بعصرنا هذا" qui signifie "ou bien ce qu'on appelle actuellement dépression".

Le concordancier du terme "الاكتئاب"



Conclusion:

Dans notre corpus en anglais et en français, la dépression est associée, sans surprise, au domaine médical. Les internautes utlisent fréquemment des termes qui réfèrent à la thérapeutique médicamenteuse, psychologique ou psychiatrique. Dans les commentaires en anglais, le champ lexical du travail est assez présent (on le retrouve aussi dans le corpus en français, dans une moindre mesure). On peut penser qu'il est envisagé comme une cause de la dépression. Dans le corpus en arabe, les termes qui se trouvent dans l'environnement de notre mot-clef renvoient plus à des états émotionnels qu'au champ médical. Contrairement aux deux autres corpus, on trouve dans le contexte de la "dépression nerveuse", des termes qui renvoient à la religion, qui semble conçue comme un remède.



NUAGES DE MOTS

Le nuage de mots est une représentation visuelle de la fréquence des mots d'un corpus textuel. Plus la fréquence d'un mot est élevée, plus sa police est grande. Nous avons utilisé le site www.nuagesdemots.fr. Avant de générer un nuage, une stop-list permet de ne pas tenir compte des mots vides.



GALERIE DE NUAGES



Nuages de mots - contexte proche







Nuages de mots - contexte large (texte entier)









Commentaires:

Anglais:

- Contexte proche: mots les plus fréquents: nervous (nerveux), anxiety (anxiété), mental (mental), recovery term (rétablissement), symptoms (symptômes), severe (sévère), years (années), think (penser).

- Contexte large: mots les plus fréquents: breakdown (dépression), feel (ressentir), nervous (nerveux), help (aide), time (temps), people (les gens), life (vie), work (travail).

Arabe:

- Contexte proche: mots les plus fréquents: الاكتئاب (dépression), العلاج (traitement), الاسباب (causes), الهم (soucis), الحزن (tristesse), القلق (inquiétude), الحالات (états), الكبرى (grands).

- Contexte large: mots les plus fréquents: الإكتئاب (dépression), لله (Dieu), الحياة (vie), العلاج (traitement), الحزن (tristesse), فترة (période), شعور (sentiment), الإنسان (l'humain), الشفاء (guérison), حالة (état).

Français:

- Contexte proche: mots les plus fréquents: dépression, depression, dépressifs, ans, sévère, sentiment, maladie, grave.

- Contexte large: mots les plus fréquents: dépression, mal, aide, vie, temps, maladie, autres, psy.



TABLEAUX

Voici l'ensemble des données collectées pour chaque langue.





  • TABLEAU 1 : CORPUS EN ANGLAIS
  • TABLEAU 2 : CORPUS EN FRANÇAIS
  • TABLEAU 3 : CORPUS EN ARABE


  • TABLEAU 1: CORPUS EN ANGLAIS
  • CodeHttp URL Page Aspirée Encodage Dump Contexte.txt Contexte HTML Fq Motif Index Bigrammes
    1500Lien n°1
    2200Lien n°2 page aspirée n°2 UTF-8 DUMP n° 2 1-2.txt 1-2.html 9index-1-2.txt bigrammes-1-2.txt
    3200Lien n°3 page aspirée n°3 UTF-8 DUMP n° 3 1-3.txt 1-3.html 11index-1-3.txt bigrammes-1-3.txt
    4200Lien n°4 page aspirée n°4 UTF-8 DUMP n° 4 1-4.txt 1-4.html 107index-1-4.txt bigrammes-1-4.txt
    5200Lien n°5 page aspirée n°5 UTF-8 DUMP n° 5 1-5.txt 1-5.html 8index-1-5.txt bigrammes-1-5.txt
    6200Lien n°6 page aspirée n°6 UTF-8 DUMP n° 6 1-6.txt 1-6.html 10index-1-6.txt bigrammes-1-6.txt
    7200Lien n°7 page aspirée n°7 UTF-8 DUMP n° 7 1-7.txt 1-7.html 20index-1-7.txt bigrammes-1-7.txt
    8200Lien n°8 page aspirée n°8 UTF-8 DUMP n° 8 1-8.txt 1-8.html 8index-1-8.txt bigrammes-1-8.txt
    9200Lien n°9 page aspirée n°9 UTF-8 DUMP n° 9 1-9.txt 1-9.html 2index-1-9.txt bigrammes-1-9.txt
    10200Lien n°10 page aspirée n°10 UTF-8 DUMP n° 10 1-10.txt 1-10.html 3index-1-10.txt bigrammes-1-10.txt
    11200Lien n°11 page aspirée n°11 UTF-8 DUMP n° 11 1-11.txt 1-11.html 10index-1-11.txt bigrammes-1-11.txt
    12200Lien n°12 page aspirée n°12 UTF-8 DUMP n° 12 1-12.txt 1-12.html 8index-1-12.txt bigrammes-1-12.txt
    13200Lien n°13 page aspirée n°13 UTF-8 DUMP n° 13 1-13.txt 1-13.html 20index-1-13.txt bigrammes-1-13.txt
    14200Lien n°14 page aspirée n°14 UTF-8 DUMP n° 14 1-14.txt 1-14.html 7index-1-14.txt bigrammes-1-14.txt
    15200Lien n°15 page aspirée n°15 UTF-8 DUMP n° 15 1-15.txt 1-15.html 15index-1-15.txt bigrammes-1-15.txt
    16200Lien n°16 page aspirée n°16 UTF-8 DUMP n° 16 1-16.txt 1-16.html 13index-1-16.txt bigrammes-1-16.txt
    17200Lien n°17 page aspirée n°17 UTF-8 DUMP n° 17 1-17.txt 1-17.html 42index-1-17.txt bigrammes-1-17.txt
    18200Lien n°18 page aspirée n°18 UTF-8 DUMP n° 18 1-18.txt 1-18.html 42index-1-18.txt bigrammes-1-18.txt
    19200Lien n°19 page aspirée n°19 UTF-8 DUMP n° 19 1-19.txt 1-19.html 12index-1-19.txt bigrammes-1-19.txt
    20200Lien n°20 page aspirée n°20 UTF-8 DUMP n° 20 1-20.txt 1-20.html 42index-1-20.txt bigrammes-1-20.txt
    21200Lien n°21 page aspirée n°21 UTF-8 DUMP n° 21 1-21.txt 1-21.html 161-21.html bigrammes-1-21.txt
    22200Lien n°22 page aspirée n°22 UTF-8 DUMP n° 22 1-22.txt 1-22.html 61-22.html bigrammes-1-22.txt
    23200Lien n°23 page aspirée n°23 UTF-8 DUMP n° 23 1-23.txt 1-23.html 18index-1-23.txt bigrammes-1-23.txt
    24200Lien n°24 page aspirée n°24 UTF-8 DUMP n° 24 1-24.txt 1-24.html 9index-1-24.txt bigrammes-1-24.txt
    25200Lien n°25 page aspirée n°25 UTF-8 DUMP n° 25 1-25.txt 1-25.html 24index-1-25.txt bigrammes-1-25.txt
    26500Lien n°26
    27200Lien n°27 page aspirée n°27 UTF-8 DUMP n° 27 1-27.txt 1-27.html 14index-1-27.txt bigrammes-1-27.txt
    28200Lien n°28 page aspirée n°28 UTF-8 DUMP n° 28 1-28.txt 1-28.html 1index-1-28.txt bigrammes-1-28.txt
    29200Lien n°29 page aspirée n°29 UTF-8 DUMP n° 29 1-29.txt 1-29.html 10index-1-29.txt bigrammes-1-29.txt
    30200Lien n°30 page aspirée n°30 UTF-8 DUMP n° 30 1-30.txt 1-30.html 8index-1-30.txt bigrammes-1-30.txt
    31200Lien n°31 page aspirée n°31 UTF-8 DUMP n° 31 1-31.txt 1-31.html 3index-1-31.txt bigrammes-1-31.txt
    32200Lien n°32 page aspirée n°32 UTF-8 DUMP n° 32 1-32.txt 1-32.html 35index-1-32.txt bigrammes-1-32.txt
    33200Lien n°33 page aspirée n°33 UTF-8 DUMP n° 33 1-33.txt 1-33.html 12index-1-33.txt bigrammes-1-33.txt
    34200Lien n°34 page aspirée n°34 UTF-8 DUMP n° 34 1-34.txt 1-34.html 9index-1-34.txt bigrammes-1-34.txt
    35200Lien n°35 page aspirée n°35 UTF-8 DUMP n° 35 1-35.txt 1-35.html 2index-1-35.txt bigrammes-1-35.txt
    36200Lien n°36 page aspirée n°36 UTF-8 DUMP n° 36 1-36.txt 1-36.html 30index-1-36.txt bigrammes-1-36.txt
    37200Lien n°37 page aspirée n°37 UTF-8 DUMP n° 37 1-37.txt 1-37.html 43index-1-37.txt bigrammes-1-37.txt
    38200Lien n°38 page aspirée n°38 UTF-8 DUMP n° 38 1-38.txt 1-38.html 30index-1-38.txt bigrammes-1-38.txt
    39200Lien n°39 page aspirée n°39 UTF-8 DUMP n° 39 1-39.txt 1-39.html 2index-1-39.txt bigrammes-1-39.txt
    40200Lien n°40 page aspirée n°40 UTF-8 DUMP n° 40 1-40.txt 1-40.html 39index-1-40.txt bigrammes-1-40.txt
    41200Lien n°41 page aspirée n°41 UTF-8 DUMP n° 41 1-41.txt 1-41.html 3index-1-41.txt bigrammes-1-41.txt
    42200Lien n°42 page aspirée n°42 UTF-8 DUMP n° 42 1-42.txt 1-42.html 26index-1-42.txt bigrammes-1-42.txt
    43200Lien n° 43 page aspirée n°43 UTF-8 DUMP n° 43 1-43.txt 1-43.html 13index-1-43.txt bigrammes-1-43.txt
    44200Lien n°44 page aspirée n°44 UTF-8 DUMP n° 44 1-44.txt 1-44.html 24index-1-44.txt bigrammes-1-44.txt
    45200Lien n°45 page aspirée n°45 UTF-8 DUMP n° 45 1-45.txt 1-45.html 18index-1-45.txt bigrammes-1-45.txt
    46200Lien n°46 page aspirée n°46 UTF-8 DUMP n° 46 1-46.txt 1-46.html 29index-1-46.txt bigrammes-1-46.txt
    47200Lien n°47 page aspirée n°47 UTF-8 DUMP n° 47 1-47.txt 1-47.html 4index-1-47.txt bigrammes-1-47.txt
    48200Lien n°48 page aspirée n°48 UTF-8 DUMP n° 48 1-48.txt 1-48.html 4index-1-48.txt bigrammes-1-48.txt
    49200Lien n°49 page aspirée n°49 UTF-8 DUMP n° 49 1-49.txt 1-49.html 18index-1-49.txt bigrammes-1-49.txt
    50200Lien n°50 page aspirée n°50 UTF-8 DUMP n° 50 1-50.html 1-50.html 12index-1-50.txt bigrammes-1-50.txt
    51200Lien n°51 page aspirée n°51 UTF-8 DUMP n° 50 1-51.html 1-51.html 8index-1-51.txt bigrammes-1-51.txt


  • TABLEAU 2 : CORPUS EN FRANÇAIS
  • CodeHttp URL Page Aspirée Encodage Dump Contexte.txt Contexte HTML Fq Motif Index Bigrammes
    1200Lien n°1 page aspirée n°1 UTF-8 DUMP n° 1 2-1.txt 2-1.html 40index-2-1.txt bigrammes-2-1.txt
    2200Lien n°2 page aspirée n°2 UTF-8 DUMP n° 2 2-2.txt 2-2.html 17index-2-2.txt bigrammes-2-2.txt
    3403Lien n°3
    4200Lien n°4 page aspirée n°4 UTF-8 DUMP n° 4 2-4.txt 2-4.html 6index-2-4.txt bigrammes-2-4.txt
    5200Lien n°5 page aspirée n°5 UTF-8 DUMP n° 5 2-5.txt 2-5.html 15index-2-5.txt bigrammes-2-5.txt
    6200Lien n°6 page aspirée n°6 UTF-8 DUMP n° 6 2-6.txt 2-6.html 20index-2-6.txt bigrammes-2-6.txt
    7200Lien n°7 page aspirée n°7 UTF-8 DUMP n° 7 2-7.txt 2-7.html 30index-2-7.txt bigrammes-2-7.txt
    8200Lien n°8 page aspirée n°8 UTF-8 DUMP n° 8 2-8.txt 2-8.html 25index-2-8.txt bigrammes-2-8.txt
    9200Lien n°9 page aspirée n°9 UTF-8 DUMP n° 9 2-9.txt 2-9.html 16index-2-9.txt bigrammes-2-9.txt
    10200Lien n°10 page aspirée n°10 UTF-8 DUMP n° 10 2-10.txt 2-10.html 27index-2-10.txt bigrammes-2-10.txt
    11200Lien n°11 page aspirée n°11 UTF-8 DUMP n° 11 2-11.txt 2-11.html 14index-2-11.txt bigrammes-2-11.txt
    12403Lien n°12
    13200Lien n°13 page aspirée n°13 UTF-8 DUMP n° 13 2-13.txt 2-13.html 10index-2-13.txt bigrammes-2-13.txt
    14200Lien n°14 page aspirée n°14 UTF-8 DUMP n° 14 2-14.txt 2-14.html 17index-2-14.txt bigrammes-2-14.txt
    15200Lien n°15 page aspirée n°15 UTF-8 DUMP n° 15 2-15.txt 2-15.html 13index-2-15.txt bigrammes-2-15.txt
    16200Lien n°16 page aspirée n°16 UTF-8 DUMP n° 16 2-16.txt 2-16.html 17index-2-16.txt bigrammes-2-16.txt
    17200Lien n°17 page aspirée n°17 UTF-8 DUMP n° 17 2-17.txt 2-17.html 41index-2-17.txt bigrammes-2-17.txt
    18200Lien n°18 page aspirée n°18 UTF-8 DUMP n° 18 2-18.txt 2-18.html 11index-2-18.txt bigrammes-2-18.txt
    19200Lien n°19 page aspirée n°19 UTF-8 DUMP n° 19 2-19.html 2-18.html 6index-2-19.txt bigrammes-2-19.txt
    20200Lien n°20 page aspirée n°20 UTF-8 DUMP n° 20 2-20.txt 2-20.html 55index-2-20.txt bigrammes-2-20.txt
    21404Lien n°21
    22404Lien n°22
    23404Lien n°23
    24200Lien n°24 page aspirée n°24 UTF-8 DUMP n° 24 2-24.txt 2-24.html 15index-2-24.txt bigrammes-2-24.txt
    25200Lien n°25 page aspirée n°25 UTF-8 DUMP n° 25 2-25.txt 2-25.html 11index-2-25.txt bigrammes-2-25.txt
    26200Lien n°26 page aspirée n°26 UTF-8 DUMP n° 26 2-26.txt 2-26.html 13index-2-26.txt bigrammes-2-26.txt
    27200Lien n°27 page aspirée n°27 UTF-8 DUMP n° 27 2-27.txt 2-27.html 17index-2-27.txt bigrammes-2-27.txt
    28200Lien n°28 page aspirée n°28 UTF-8 DUMP n° 28 2-28.txt 2-28.html 16index-2-28.txt bigrammes-2-28.txt
    29000Lien n°29
    30200Lien n°30 page aspirée n°30 UTF-8 DUMP n° 30 2-30.txt 2-30.html 84index-2-30.txt bigrammes-2-30.txt
    31200Lien n°31 page aspirée n°31 UTF-8 DUMP n° 31 2-31.txt 2-31.html 19index-2-31.txt bigrammes-2-31.txt
    32200Lien n°32 page aspirée n°32 UTF-8 DUMP n° 32 2-32.txt 2-32.html 15index-2-32.txt bigrammes-2-32.txt
    33200Lien n°33 page aspirée n°33 UTF-8 DUMP n° 33 2-33.txt 2-33.html 12index-2-33.txt bigrammes-2-33.txt
    34200Lien n°34 page aspirée n°34 UTF-8 DUMP n° 34 2-34.txt 2-34.html 8index-2-34.txt bigrammes-2-34.txt
    35200Lien n°35 page aspirée n°35 UTF-8 DUMP n° 35 2-35.txt 2-35.html 27index-2-35.txt bigrammes-2-35.txt
    36200Lien n°36 page aspirée n°36 UTF-8 DUMP n° 36 2-36.txt 2-36.html 3index-2-36.txt bigrammes-2-36.txt
    37200Lien n°37 page aspirée n°37 UTF-8 DUMP n° 37 2-37.txt 2-37.html 86index-2-37.txt bigrammes-2-37.txt
    38200Lien n°38 page aspirée n°38 UTF-8 DUMP n° 38 2-38.txt 2-38.html 27index-2-38.txt bigrammes-2-38.txt
    39000Lien n°39
    40200Lien n°40 page aspirée n°40 UTF-8 DUMP n° 40 2-40.txt 2-40.html 89index-2-40.txt bigrammes-2-40.txt
    41200Lien n°41 page aspirée n°41 UTF-8 DUMP n° 41 2-41.txt 2-41.html 18index-2-41.txt bigrammes-2-41.txt
    42200Lien n°42 page aspirée n°42 UTF-8 DUMP n° 42 2-42.txt 2-42.html 13index-2-42.txt bigrammes-2-42.txt
    43200Lien n°43 page aspirée n°43 UTF-8 DUMP n° 43 2-43.txt 2-43.html 10index-2-43.txt bigrammes-2-43.txt
    44200Lien n°44 page aspirée n°44 UTF-8 DUMP n° 44 2-44.txt 2-44.html 6index-2-44.txt bigrammes-2-44.txt
    45200Lien n°45 page aspirée n°45 UTF-8 DUMP n° 45 2-45.txt 2-45.html 4index-2-45.txt bigrammes-2-45.txt
    46200Lien n°46 page aspirée n°46 UTF-8 DUMP n° 46 2-46.txt 2-46.html 45index-2-46.txt bigrammes-2-46.txt
    47200Lien n°47 page aspirée n°47 UTF-8 DUMP n° 47 2-47.txt 2-47.html 24index-2-47.txt bigrammes-2-47.txt
    48200Lien n°48 page aspirée n°48 UTF-8 DUMP n° 48 2-48.txt 2-48.html 21index-2-48.txt bigrammes-2-48.txt
    49200Lien n°49 page aspirée n°49 UTF-8 DUMP n° 49 2-49.txt 2-49.html 29index-2-49.txt bigrammes-2-49.txt
    50200Lien n°50 page aspirée n°50 UTF-8 DUMP n° 50 2-50.html 2-50.html 17index-2-50.txt bigrammes-2-50.txt
    51200Lien n°51 page aspirée n°51 UTF-8 DUMP n° 51 2-51.html 2-51.html 45index-2-51.txt bigrammes-2-51.txt
    52200Lien n°52 page aspirée n°52 UTF-8 DUMP n° 52 2-52.html 2-52.html 14index-2-52.txt bigrammes-2-52.txt
    53200Lien n°53 page aspirée n°53 UTF-8 DUMP n° 53 2-53.html 2-53.html 33index-2-53.txt bigrammes-2-53.txt
  • TABLEAU 3: CORPUS EN ARABE
  • CodeHttp URL Page Aspirée Encodage Dump Contexte.txt Contexte HTML Fq Motif Index Bigrammes
    1200Lien n°1 page aspirée n°1 UTF-8 DUMP n° 1 3-1.txt 3-1.html 10index-3-1.txt bigrammes-3-1.txt
    2500Lien n°2
    3200Lien n°3 page aspirée n°3 UTF-8 DUMP n° 4 3-3.txt 3-3.html 12index-3-3.txt bigrammes-3-3.txt
    4200Lien n°4 page aspirée n°4 UTF-8 DUMP n° 4 3-4.txt 3-4.html 10index-3-4.txt bigrammes-3-4.txt
    5200Lien n°5 page aspirée n°5 UTF-8 DUMP n° 5 3-5.txt 3-5.html 29index-3-5.txt bigrammes-3-5.txt
    6200Lien n°6 page aspirée n°6 UTF-8 DUMP n° 6 3-6.txt 3-6.html 23index-3-6.txt bigrammes-3-6.txt
    7200Lien n°7 page aspirée n°7 UTF-8 DUMP n° 7 3-7.txt 3-7.html 18index-3-7.txt bigrammes-3-7.txt
    8200Lien n°8 page aspirée n°8 UTF-8 DUMP n° 8 3-8.txt 3-8.html 5index-3-8.txt bigrammes-3-8.txt
    9200Lien n°9 page aspirée n°9 UTF-8 DUMP n° 9 3-9.txt 3-9.html 14index-3-9.txt bigrammes-3-9.txt
    10406Lien n°10
    11408Lien n°11
    12400Lien n°12
    13200Lien n°13 page aspirée n°13 UTF-8 DUMP n° 13 3-13.txt 3-13.html 9index-3-13.txt bigrammes-3-13.txt
    14200Lien n°14 page aspirée n°14 UTF-8 DUMP n° 14 3-14.txt 3-14.html 13index-3-14.txt bigrammes-3-14.txt
    15200Lien n°15 page aspirée n°15 UTF-8 DUMP n° 15 3-15.txt 3-15.html 17index-3-15.txt bigrammes-3-15.txt
    16200Lien n°16 page aspirée n°16 UTF-8 DUMP n° 16 3-16.txt 3-16.html 8index-3-16.txt bigrammes-3-16.txt
    17200Lien n°17 page aspirée n°17 UTF-8 DUMP n° 17 3-17.txt 3-17.html 23index-3-17.txt bigrammes-3-17.txt
    18200Lien n°18 page aspirée n°18 UTF-8 DUMP n° 18 3-18.txt 3-18.html 10index-3-18.txt bigrammes-3-18.txt
    19200Lien n°19 page aspirée n°19 UTF-8 DUMP n° 18 3-19.txt 3-19.html 8index-3-19.txt bigrammes-3-19.txt
    20200Lien n°20 page aspirée n°20 UTF-8 DUMP n° 20 3-20.txt 3-20.html 8index-3-20.txt bigrammes-3-20.txt
    21404Lien n°21 page aspirée n°21 UTF-8 DUMP n° 21 3-21.txt 3-21.html 9index-3-21.txt bigrammes-3-21.txt
    22200Lien n°22 page aspirée n°22 UTF-8 DUMP n° 22 3-22.txt 3-22.html 28index-3-22.txt bigrammes-3-22.txt
    23200Lien n°23 page aspirée n°23 UTF-8 DUMP n° 23 3-23.txt 3-23.html 43index-3-23.txt bigrammes-3-23.txt
    24200Lien n°24 page aspirée n°24 UTF-8 DUMP n° 24 3-24.txt 3-24.html 10index-3-24.txt bigrammes-3-24.txt
    25200Lien n°25 page aspirée n°25 UTF-8 DUMP n° 25 3-25.txt 3-25.html 10index-3-25.txt bigrammes-3-25.txt
    26200Lien n°26 page aspirée n°26 UTF-8 DUMP n° 26 3-26.txt 3-26.html 35index-3-26.txt bigrammes-3-26.txt
    27200Lien n°27 page aspirée n°27 UTF-8 DUMP n° 27 3-27.txt 3-27.html 28index-3-27.txt bigrammes-3-27.txt
    28200Lien n°28 page aspirée n°28 UTF-8 DUMP n° 28 3-28.txt 3-28.html 31index-3-28.txt bigrammes-3-28.txt
    29200Lien n°29 page aspirée n°29 UTF-8 DUMP n° 29 3-29.txt 3-29.html 52index-3-29.txt bigrammes-3-29.txt
    30200Lien n°30 page aspirée n°30 UTF-8 DUMP n° 30 3-30.txt 3-30.html 12index-3-30.txt bigrammes-3-30.txt
    31200Lien n°31 page aspirée n°31 UTF-8 DUMP n° 31 3-31.txt 3-31.html 37index-3-31.txt bigrammes-3-31.txt
    32200Lien n°32 page aspirée n°32 UTF-8 DUMP n° 32 3-32.txt 3-32.html 83index-3-32.txt bigrammes-3-32.txt
    33200Lien n°33 page aspirée n°33 UTF-8 DUMP n° 33 3-33.txt 3-33.html 16index-3-33.txt bigrammes-3-33.txt
    34200Lien n°34 page aspirée n°34 UTF-8 DUMP n° 34 3-34.txt 3-34.html 8index-3-34.txt bigrammes-3-34.txt
    35200Lien n°35 page aspirée n°35 UTF-8 DUMP n° 35 3-35.txt 3-35.html 45index-3-35.txt bigrammes-3-35.txt
    36200Lien n°36 page aspirée n°36 UTF-8 DUMP n° 36 3-36.txt 3-36.html 73index-3-36.txt bigrammes-3-36.txt
    37200Lien n°37 page aspirée n°37 UTF-8 DUMP n° 37 3-37.txt 3-37.html 21index-3-37.txt bigrammes-3-37.txt
    38404Lien n°38
    39200Lien n°39 page aspirée n°39 UTF-8 DUMP n° 39 3-39.txt 3-39.html 54index-3-39.txt bigrammes-3-39.txt
    40200Lien n°40 page aspirée n°40 UTF-8 DUMP n° 40 3-40.txt 3-40.html 35index-3-40.txt bigrammes-3-40.txt
    41200Lien n°41 page aspirée n°41 UTF-8 DUMP n° 41 3-41.txt 3-41.html 44index-3-41.txt bigrammes-3-41.txt
    42200Lien n°42 page aspirée n°42 UTF-8 DUMP n° 42 3-42.txt 3-42.html 50index-3-42.txt bigrammes-3-42.txt
    43200Lien n°43 page aspirée n°43 UTF-8 DUMP n° 43 3-43.txt 3-43.html 68index-3-43.txt bigrammes-3-43.txt
    44200Lien n°44 page aspirée n°44 UTF-8 DUMP n° 44 3-44.txt 3-44.html 43index-3-44.txt bigrammes-3-44.txt
    45200Lien n°45 page aspirée n°45 UTF-8 DUMP n° 45 3-45.txt 3-45.html 52index-3-45.txt bigrammes-3-45.txt
    46200Lien n°46 page aspirée n°46 UTF-8 DUMP n° 46 3-46.txt 3-46.html 20index-3-46.txt bigrammes-3-46.txt
    47200Lien n°47 page aspirée n°47 UTF-8 DUMP n° 47 3-47.txt 3-47.html 19index-3-47.txt bigrammes-3-47.txt
    48200Lien n°48 page aspirée n°48 UTF-8 DUMP n° 48 3-48.txt 3-48.html 45index-3-48.txt bigrammes-3-48.txt
    49200Lien n°49 page aspirée n°49 UTF-8 DUMP n° 49 3-49.txt 3-49.html 26index-3-49.txt bigrammes-3-49.txt
    50200Lien n°50 page aspirée n°50 UTF-8 DUMP n° 50 3-50.html 3-50.html 48index-3-50.txt bigrammes-3-50.txt
    51200Lien n°51 page aspirée n°51 UTF-8 DUMP n° 51 3-51.html 3-51.html 44index-3-51.txt bigrammes-3-51.txt
    52200Lien n°52 page aspirée n°52 UTF-8 DUMP n° 52 3-52.html 3-52.html 24index-3-52.txt bigrammes-3-52.txt
    53200Lien n°53 page aspirée n°53 UTF-8 DUMP n° 53 3-53.html 3-53.html 3index-3-53.txt bigrammes-3-53.txt
    54200Lien n°54 page aspirée n°54 UTF-8 DUMP n° 54 3-54.html 3-54.html 3index-3-54.txt bigrammes-3-54.txt
    55200Lien n°55 page aspirée n°55 UTF-8 DUMP n° 55 3-55.html 3-55.html 20index-3-55.txt bigrammes-3-55.txt