Les résultats : tableaux, nuages et arbres de mots


 

LES TABLEAUX


Voici les tableaux obtenus en arabe, chinois, coréen et français.

Arabe :

arabe
URL Page aspiree Dump initial Dump en UTF-8 Contextes-txt Contextes-html
1 lien 1 page 1 dump n°1 en utf-8 dump n°1 contextes-txt n°1 contextes-html n°1
2 lien 2 page 2 dump n°2 en utf-8 dump n°2 contextes-txt n°2 contextes-html n°2
3 lien 3 page 3 dump n°3 en windows-1256 dump n°3 contextes-txt n°3 contextes-html n°3
4 lien 4 page 4 dump n°4 en utf-8 dump n°4 contextes-txt n°4 contextes-html n°4
5 lien 5 page 5 dump n°5 en windows-1256 dump n°5 contextes-txt n°5 contextes-html n°5
6 lien 6 page 6 dump n°6 en utf-8 dump n°6 contextes-txt n°6 contextes-html n°6
7 lien 7 page 7 dump n°7 en utf-8 dump n°7 contextes-txt n°7 contextes-html n°7
8 lien 8 page 8 dump n°8 en windows-1256 dump n°8 contextes-txt n°8 contextes-html n°8
9 lien 9 page 9 dump n°9 en windows-1256 dump n°9 contextes-txt n°9 contextes-html n°9
10 lien 10 page 10 dump n°10 en windows-1256 dump n°10 contextes-txt n°10 contextes-html n°10
11 lien 11 page 11 dump n°11 en utf-8 dump n°11 contextes-txt n°11 contextes-html n°11
12 lien 12 page 12 dump n°12 en utf-8 dump n°12 contextes-txt n°12 contextes-html n°12
13 lien 13 page 13 dump n°13 en utf-8 dump n°13 contextes-txt n°13 contextes-html n°13
14 lien 14 page 14 dump n°14 en utf-8 dump n°14 contextes-txt n°14 contextes-html n°14
15 lien 15 page 15 dump n°15 en windows-1256 dump n°15 contextes-txt n°15 contextes-html n°15
16 lien 16 page 16 dump n°16 en windows-1256 dump n°16 contextes-txt n°16 contextes-html n°16
17 lien 17 page 17 dump n°17 en windows-1256 dump n°17 contextes-txt n°17 contextes-html n°17
18 lien 18 page 18 dump n°18 en windows-1256 dump n°18 contextes-txt n°18 contextes-html n°18
19 lien 19 page 19 dump n°19 en windows-1256 dump n°19 contextes-txt n°19 contextes-html n°19
20 lien 20 page 20 dump n°20 en utf-8 dump n°20 contextes-txt n°20 contextes-html n°20
21 lien 21 page 21 dump n°21 en utf-8 dump n°21 contextes-txt n°21 contextes-html n°21
22 lien 22 page 22 dump n°22 en utf-8 dump n°22 contextes-txt n°22 contextes-html n°22
23 lien 23 page 23 dump n°23 en windows-1256 dump n°23 contextes-txt n°23 contextes-html n°23
24 lien 24 page 24 dump n°24 en windows-1256 dump n°24 contextes-txt n°24 contextes-html n°24
  Fichier dump global en arabe Fichier contexte global en arabe


Chinois :

chinois
URL Page aspiree Dump initial Dump en UTF-8 Contextes-txt Contextes-html
1 lien 1 page 1 dump n°1 en gb2312 dump n°1 contextes-txt n°1 contextes-html n°1
2 lien 2 page 2 dump n°2 en gb2312 dump n°2 contextes-txt n°2 contextes-html n°2
3 lien 3 page 3 dump n°3 en utf-8 dump n°3 contextes-txt n°3 contextes-html n°3
4 lien 4 page 4 dump n°4 en gb2312 dump n°4 contextes-txt n°4 contextes-html n°4
5 lien 5 page 5 dump n°5 en utf-8 dump n°5 contextes-txt n°5 contextes-html n°5
6 lien 6 page 6 dump n°6 en utf-8 dump n°6 contextes-txt n°6 contextes-html n°6
7 lien 7 page 7 dump n°7 en utf-8 dump n°7 contextes-txt n°7 contextes-html n°7
8 lien 8 page 8 dump n°8 en gb2312 dump n°8 contextes-txt n°8 contextes-html n°8
9 lien 9 page 9 dump n°9 en gb2312 dump n°9 contextes-txt n°9 contextes-html n°9
10 lien 10 page 10 dump n°10 en gb2312 dump n°10 contextes-txt n°10 contextes-html n°10
11 lien 11 page 11 dump n°11 en gb2312 dump n°11 contextes-txt n°11 contextes-html n°11
12 lien 12 page 12 dump n°12 en gb2312 dump n°12 contextes-txt n°12 contextes-html n°12
13 lien 13 page 13 dump n°13 en gb2312 dump n°13 contextes-txt n°13 contextes-html n°13
14 lien 14 page 14 dump n°14 en gbk dump n°14 contextes-txt n°14 contextes-html n°14
15 lien 15 page 15 dump n°15 en utf-8 dump n°15 contextes-txt n°15 contextes-html n°15
16 lien 16 page 16 dump n°16 en utf-8 dump n°16 contextes-txt n°16 contextes-html n°16
17 lien 17 page 17 dump n°17 en utf-8 dump n°17 contextes-txt n°17 contextes-html n°17
18 lien 18 page 18 dump n°18 en gb2312 dump n°18 contextes-txt n°18 contextes-html n°18
19 lien 19 page 19 dump n°19 en gb2312 dump n°19 contextes-txt n°19 contextes-html n°19
20 lien 20 page 20 dump n°20 en utf-8 dump n°20 contextes-txt n°20 contextes-html n°20
21 lien 21 page 21 dump n°21 en gb2312 dump n°21 contextes-txt n°21 contextes-html n°21
22 lien 22 page 22 dump n°22 en utf-8 dump n°22 contextes-txt n°22 contextes-html n°22
23 lien 23 page 23 dump n°23 en utf-8 dump n°23 contextes-txt n°23 contextes-html n°23
24 lien 24 page 24 dump n°24 en gbk dump n°24 contextes-txt n°24 contextes-html n°24
25 lien 25 page 25 dump n°25 en utf-8 dump n°25 contextes-txt n°25 contextes-html n°25
  Fichier dump global en chinois Fichier contexte global en chinois


Coréen :

coreen
URL Page aspiree Dump initial Dump en UTF-8 Contextes-txt Contextes-html
1 lien 1 page 1 dump n°1 en utf-8 dump n°1 contextes-txt n°1 contextes-html n°1
2 lien 2 page 2 dump n°2 en euc-kr dump n°2 contextes-txt n°2 contextes-html n°2
3 lien 3 page 3 dump n°3 en euc-kr dump n°3 contextes-txt n°3 contextes-html n°3
4 lien 4 page 4 dump n°4 en euc-kr dump n°4 contextes-txt n°4 contextes-html n°4
5 lien 5 page 5 dump n°5 en utf-8 dump n°5 contextes-txt n°5 contextes-html n°5
6 lien 6 page 6 dump n°6 en utf-8 dump n°6 contextes-txt n°6 contextes-html n°6
7 lien 7 page 7 dump n°7 en euc-kr dump n°7 contextes-txt n°7 contextes-html n°7
8 lien 8 page 8 dump n°8 en utf-8 dump n°8 contextes-txt n°8 contextes-html n°8
9 lien 9 page 9 dump n°9 en utf-8 dump n°9 contextes-txt n°9 contextes-html n°9
10 lien 10 page 10 dump n°10 en euc-kr dump n°10 contextes-txt n°10 contextes-html n°10
11 lien 11 page 11 dump n°11 en utf-8 dump n°11 contextes-txt n°11 contextes-html n°11
12 lien 12 page 12 dump n°12 en utf-8 dump n°12 contextes-txt n°12 contextes-html n°12
13 lien 13 page 13 dump n°13 en euc-kr dump n°13 contextes-txt n°13 contextes-html n°13
14 lien 14 page 14 dump n°14 en utf-8 dump n°14 contextes-txt n°14 contextes-html n°14
15 lien 15 page 15 dump n°15 en euc-kr dump n°15 contextes-txt n°15 contextes-html n°15
16 lien 16 page 16 dump n°16 en utf-8 dump n°16 contextes-txt n°16 contextes-html n°16
17 lien 17 page 17 dump n°17 en utf-8 dump n°17 contextes-txt n°17 contextes-html n°17
18 lien 18 page 18 dump n°18 en euc-kr dump n°18 contextes-txt n°18 contextes-html n°18
19 lien 19 page 19 dump n°19 en euc-kr dump n°19 contextes-txt n°19 contextes-html n°19
20 lien 20 page 20 dump n°20 en euc-kr dump n°20 contextes-txt n°20 contextes-html n°20
21 lien 21 page 21 dump n°21 en utf-8 dump n°21 contextes-txt n°21 contextes-html n°21
22 lien 22 page 22 dump n°22 en utf-8 dump n°22 contextes-txt n°22 contextes-html n°22
23 lien 23 page 23 dump n°23 en utf-8 dump n°23 contextes-txt n°23 contextes-html n°23
24 lien 24 page 24 dump n°24 en euc-kr dump n°24 contextes-txt n°24 contextes-html n°24
25 lien 25 page 25 dump n°25 en utf-8 dump n°25 contextes-txt n°25 contextes-html n°25
26 lien 26 page 26 dump n°26 en euc-kr dump n°26 contextes-txt n°26 contextes-html n°26
27 lien 27 page 27 dump n°27 en utf-8 dump n°27 contextes-txt n°27 contextes-html n°27
  Fichier dump global en coreen Fichier contexte global en coreen


Français :

francais
URL Page aspiree Dump initial Dump en UTF-8 Contextes-txt Contextes-html
1 lien 1 page 1 dump n°1 en utf-8 dump n°1 contextes-txt n°1 contextes-html n°1
2 lien 2 page 2 dump n°2 en iso-8859-1 dump n°2 contextes-txt n°2 contextes-html n°2
3 lien 3 page 3 dump n°3 en utf-8 dump n°3 contextes-txt n°3 contextes-html n°3
4 lien 4 page 4 dump n°4 en iso-8859-1 dump n°4 contextes-txt n°4 contextes-html n°4
5 lien 5 page 5 dump n°5 en utf-8 dump n°5 contextes-txt n°5 contextes-html n°5
6 lien 6 page 6 dump n°6 en iso-8859-1 dump n°6 contextes-txt n°6 contextes-html n°6
7 lien 7 page 7 dump n°7 en iso-8859-1 dump n°7 contextes-txt n°7 contextes-html n°7
8 lien 8 page 8 dump n°8 en utf-8 dump n°8 contextes-txt n°8 contextes-html n°8
9 lien 9 page 9 dump n°9 en utf-8 dump n°9 contextes-txt n°9 contextes-html n°9
10 lien 10 page 10 dump n°10 en iso-8859-1 dump n°10 contextes-txt n°10 contextes-html n°10
11 lien 11 page 11 dump n°11 en utf-8 dump n°11 contextes-txt n°11 contextes-html n°11
12 lien 12 page 12 dump n°12 en windows-1252 dump n°12 contextes-txt n°12 contextes-html n°12
13 lien 13 page 13 dump n°13 en utf-8 dump n°13 contextes-txt n°13 contextes-html n°13
14 lien 14 page 14 dump n°14 en iso-8859-1 dump n°14 contextes-txt n°14 contextes-html n°14
15 lien 15 page 15 dump n°15 en utf-8 dump n°15 contextes-txt n°15 contextes-html n°15
16 lien 16 page 16 dump n°16 en iso-8859-1 dump n°16 contextes-txt n°16 contextes-html n°16
17 lien 17 page 17 dump n°17 en iso-8859-1 dump n°17 contextes-txt n°17 contextes-html n°17
18 lien 18 page 18 dump n°18 en iso-8859-1 dump n°18 contextes-txt n°18 contextes-html n°18
19 lien 19 page 19 dump n°19 en iso-8859-1 dump n°19 contextes-txt n°19 contextes-html n°19
20 lien 20 page 20 dump n°20 en iso-8859-1 dump n°20 contextes-txt n°20 contextes-html n°20
21 lien 21 page 21 dump n°21 en iso-8859-1 dump n°21 contextes-txt n°21 contextes-html n°21
22 lien 22 page 22 dump n°22 en utf-8 dump n°22 contextes-txt n°22 contextes-html n°22
23 lien 23 page 23 dump n°23 en iso-8859-1 dump n°23 contextes-txt n°23 contextes-html n°23
24 lien 24 page 24 dump n°24 en windows-1252 dump n°24 contextes-txt n°24 contextes-html n°24
25 lien 25 page 25 dump n°25 en iso-8859-1 dump n°25 contextes-txt n°25 contextes-html n°25
26 lien 26 page 26 dump n°26 en iso-8859-1 dump n°26 contextes-txt n°26 contextes-html n°26
27 lien 27 page 27 dump n°27 en windows-1252 dump n°27 contextes-txt n°27 contextes-html n°27
28 lien 28 page 28 dump n°28 en iso-8859-1 dump n°28 contextes-txt n°28 contextes-html n°28
29 lien 29 page 29 dump n°29 en iso-8859-1 dump n°29 contextes-txt n°29 contextes-html n°29
30 lien 30 page 30 dump n°30 en utf-8 dump n°30 contextes-txt n°30 contextes-html n°30
31 lien 31 page 31 dump n°31 en utf-8 dump n°31 contextes-txt n°31 contextes-html n°31
  Fichier dump global en francais Fichier contexte global en francais

LES NUAGES ET ARBRES DE MOTS

Les nuages et arbres de mots sont classés selon le site ou le programme avec lesquels ils ont été obtenusf :

Wordle :

Nuage en arabe avec wordle

Tagxedo :

Treecloud :

Voici le premier arbre en français conçu à l'aide de Treecloud:



Afin d'éliminier les mots grammaticaux (déterminants, prépositions...) qui constituent du bruit pour une analyse de coocurrence, nous avons utilisé la commande sed qui nous a permis de substituer ceux-ci par des blancs.
Nous avons ainsi obtenu un arbre plus pertinent:

Le trameur :

Extraction de trigrammes (séquences de 3 mots) centrés sur le motif "coleur" et contenant au moins une occurence du mot "la".