Poutine Input


Projet de PPE de Zakarya Desprès et Chloé Monnin, étudiants en M1 TAL.

En savoir plus

Descriptif du projet


Le sujet du projet est d’étudier la vie multilingue d’un mot sur le web. Pour être plus précis, nous allons observer et un mot et son contexte au sein d’un corpus que nous allons tirer du web, puis les analyser grâce aux outils du traitement automatique des langues.

Plus d'infos

Données I


Première partie et pas des moindres, faire une liste d'URLS dont nous allons extraire le contenu des pages associées. Nous avons donc parcouru le web (enfin, on a utilisé Google quoi) pour trouver des sites web qui parlent du président de la Mère Patrie. Nous avons toutefois décidé de nous focaliser essentiellement sur des sites d'actualité, et le tout en français, en anglais et en russe.

Ensuite...

Données II


Deuxième partie, parce qu'on aime bien en faire plus, aller chercher des tweets à propos de Vladimir. À ce sujet, voir les articles sur le blog du projet : poutineinput.wordpress.com qui détaillent l'aspect technique d'une telle manipulation.

Ensuite...

Script


Le cœur du projet, le nerf de la guerre, un script tout-en-un qui extrait les pages web, en récupère le texte, le convertit en UTF-8, et insère le tout dans un tableau html. Une grosse prise de tête, un bel exercice de programmation. La suite ? Le script ici : Script

Ensuite...

Tableau


TADAAAM !!

urls_en.txt
N° Lien Page Aspirée Encodage Initial DUMP UTF-8
1 lien n°1 PA n° 1-1 utf-8 DUMP n° 1-1
2 lien n°2 PA n° 1-2 utf-8 DUMP n° 1-2
3 lien n°3 PA n° 1-3 utf-8 DUMP n° 1-3
4 lien n°4 PA n° 1-4 utf-8 DUMP n° 1-4
5 lien n°5 PA n° 1-5 utf-8 DUMP n° 1-5
6 lien n°6 PA n° 1-6 utf-8 DUMP n° 1-6
7 lien n°7 PA n° 1-7 utf-8 DUMP n° 1-7
8 lien n°8 PA n° 1-8 utf-8 DUMP n° 1-8
9 lien n°9 PA n° 1-9 utf-8 DUMP n° 1-9
10 lien n°10 PA n° 1-10 utf-8 DUMP n° 1-10
11 lien n°11 PA n° 1-11 utf-8 DUMP n° 1-11
12 lien n°12 PA n° 1-12 utf-8 DUMP n° 1-12
13 lien n°13 PA n° 1-13 utf-8 DUMP n° 1-13
14 lien n°14 PA n° 1-14 utf-8 DUMP n° 1-14
15 lien n°15 PA n° 1-15 utf-8 DUMP n° 1-15
16 lien n°16 PA n° 1-16 utf-8 DUMP n° 1-16
17 lien n°17 PA n° 1-17 utf-8 DUMP n° 1-17
18 lien n°18 PA n° 1-18 utf-8 DUMP n° 1-18
19 lien n°19 PA n° 1-19 utf-8 DUMP n° 1-19
20 lien n°20 PA n° 1-20 utf-8 DUMP n° 1-20
21 lien n°21 PA n° 1-21 utf-8 DUMP n° 1-21
22 lien n°22 PA n° 1-22 utf-8 DUMP n° 1-22
23 lien n°23 PA n° 1-23 utf-8 DUMP n° 1-23
24 lien n°24 PA n° 1-24 utf-8 DUMP n° 1-24
25 lien n°25 PA n° 1-25 utf-8 DUMP n° 1-25
26 lien n°26 PA n° 1-26 utf-8 DUMP n° 1-26
27 lien n°27 PA n° 1-27 utf-8 DUMP n° 1-27
28 lien n°28 PA n° 1-28 utf-8 DUMP n° 1-28
29 lien n°29 PA n° 1-29 utf-8 DUMP n° 1-29
30 lien n°30 PA n° 1-30 utf-8 DUMP n° 1-30
31 lien n°31 PA n° 1-31 utf-8 DUMP n° 1-31
32 lien n°32 PA n° 1-32 utf-8 DUMP n° 1-32
33 lien n°33 PA n° 1-33 utf-8 DUMP n° 1-33
34 lien n°34 PA n° 1-34 utf-8 DUMP n° 1-34
35 lien n°35 PA n° 1-35 utf-8 DUMP n° 1-35
36 lien n°36 PA n° 1-36 utf-8 DUMP n° 1-36
37 lien n°37 PA n° 1-37 utf-8 DUMP n° 1-37
38 lien n°38 PA n° 1-38 utf-8 DUMP n° 1-38
40 lien n°40 PA n° 1-40 utf-8 DUMP n° 1-40
41 lien n°41 PA n° 1-41 utf-8 DUMP n° 1-41
42 lien n°42 PA n° 1-42 utf-8 DUMP n° 1-42
43 lien n°43 PA n° 1-43 utf-8 DUMP n° 1-43
44 lien n°44 PA n° 1-44 utf-8 DUMP n° 1-44
45 lien n°45 PA n° 1-45 utf-8 DUMP n° 1-45
46 lien n°46 PA n° 1-46 utf-8 DUMP n° 1-46
47 lien n°47 PA n° 1-47 utf-8 DUMP n° 1-47
48 lien n°48 PA n° 1-48 utf-8 DUMP n° 1-48
49 lien n°49 PA n° 1-49 utf-8 DUMP n° 1-49
50 lien n°50 PA n° 1-50 utf-8 DUMP n° 1-50

urls_fr.txt
N° Lien Page Aspirée Encodage Initial DUMP UTF-8
1 lien n°1 PA n° 2-1 utf-8 DUMP n° 2-1
2 lien n°2 PA n° 2-2 utf-8 DUMP n° 2-2
3 lien n°3 PA n° 2-3 utf-8 DUMP n° 2-3
4 lien n°4 PA n° 2-4 utf-8 DUMP n° 2-4
5 lien n°5 PA n° 2-5 utf-8 DUMP n° 2-5
6 lien n°6 PA n° 2-6 utf-8 DUMP n° 2-6
7 lien n°7 PA n° 2-7 utf-8 DUMP n° 2-7
8 lien n°8 PA n° 2-8 utf-8 DUMP n° 2-8
9 lien n°9 PA n° 2-9 utf-8 DUMP n° 2-9
10 lien n°10 PA n° 2-10 utf-8 DUMP n° 2-10
11 lien n°11 PA n° 2-11 utf-8 DUMP n° 2-11
12 lien n°12 PA n° 2-12 utf-8 DUMP n° 2-12
13 lien n°13 PA n° 2-13 utf-8 DUMP n° 2-13
14 lien n°14 PA n° 2-14 iso-8859-15 DUMP n° 2-14
15 lien n°15 PA n° 2-15 utf-8 DUMP n° 2-15
16 lien n°16 PA n° 2-16 utf-8 DUMP n° 2-16
17 lien n°17 PA n° 2-17 utf-8 DUMP n° 2-17
18 lien n°18 PA n° 2-18 utf-8 DUMP n° 2-18
19 lien n°19 PA n° 2-19 utf-8 DUMP n° 2-19
20 lien n°20 PA n° 2-20 utf-8 DUMP n° 2-20
21 lien n°21 PA n° 2-21 utf-8 DUMP n° 2-21
22 lien n°22 PA n° 2-22 utf-8 DUMP n° 2-22
23 lien n°23 PA n° 2-23 utf-8 DUMP n° 2-23
24 lien n°24 PA n° 2-24 utf-8 DUMP n° 2-24
25 lien n°25 PA n° 2-25 utf-8 DUMP n° 2-25
26 lien n°26 PA n° 2-26 utf-8 DUMP n° 2-26
27 lien n°27 PA n° 2-27 utf-8 DUMP n° 2-27
28 lien n°28 PA n° 2-28 utf-8 DUMP n° 2-28
29 lien n°29 PA n° 2-29 utf-8 DUMP n° 2-29
30 lien n°30 PA n° 2-30 utf-8 DUMP n° 2-30
31 lien n°31 PA n° 2-31 utf-8 DUMP n° 2-31
32 lien n°32 PA n° 2-32 utf-8 DUMP n° 2-32
33 lien n°33 PA n° 2-33 utf-8 DUMP n° 2-33
34 lien n°34 PA n° 2-34 utf-8 DUMP n° 2-34
35 lien n°35 PA n° 2-35 utf-8 DUMP n° 2-35
36 lien n°36 PA n° 2-36 utf-8 DUMP n° 2-36
37 lien n°37 PA n° 2-37 utf-8 DUMP n° 2-37
38 lien n°38 PA n° 2-38 utf-8 DUMP n° 2-38
39 lien n°39 PA n° 2-39 utf-8 DUMP n° 2-39
40 lien n°40 PA n° 2-40 utf-8 DUMP n° 2-40
41 lien n°41 PA n° 2-41 utf-8 DUMP n° 2-41
42 lien n°42 PA n° 2-42 utf-8 DUMP n° 2-42
43 lien n°43 PA n° 2-43 utf-8 DUMP n° 2-43
44 lien n°44 PA n° 2-44 iso-8859-15 DUMP n° 2-44
45 lien n°45 PA n° 2-45 iso-8859-15 DUMP n° 2-45
46 lien n°46 PA n° 2-46 utf-8 DUMP n° 2-46
47 lien n°47 PA n° 2-47 utf-8 DUMP n° 2-47
48 lien n°48 PA n° 2-48 utf-8 DUMP n° 2-48
49 lien n°49 PA n° 2-49 utf-8 DUMP n° 2-49
50 lien n°50 PA n° 2-50 utf-8 DUMP n° 2-50

urls_ru.txt
N° Lien Page Aspirée Encodage Initial DUMP UTF-8
1 lien n°1 PA n° 3-1 utf-8 DUMP n° 3-1
2 lien n°2 PA n° 3-2 utf-8 DUMP n° 3-2
3 lien n°3 PA n° 3-3 utf-8 DUMP n° 3-3
4 lien n°4 PA n° 3-4 utf-8 DUMP n° 3-4
5 lien n°5 PA n° 3-5 windows-1251 DUMP n° 3-5
6 lien n°6 PA n° 3-6 windows-1251 DUMP n° 3-6
7 lien n°7 PA n° 3-7 utf-8 DUMP n° 3-7
8 lien n°8 PA n° 3-8 utf-8 DUMP n° 3-8
9 lien n°9 PA n° 3-9 utf-8 DUMP n° 3-9
10 lien n°10 PA n° 3-10 utf-8 DUMP n° 3-10
11 lien n°11 PA n° 3-11 utf-8 DUMP n° 3-11
12 lien n°12 PA n° 3-12 utf-8 DUMP n° 3-12
13 lien n°13 PA n° 3-13 utf-8 DUMP n° 3-13
14 lien n°14 PA n° 3-14 utf-8 DUMP n° 3-14
15 lien n°15 PA n° 3-15 utf-8 DUMP n° 3-15
16 lien n°16 PA n° 3-16 windows-1251 DUMP n° 3-16
17 lien n°17 PA n° 3-17 windows-1251 DUMP n° 3-17
18 lien n°18 PA n° 3-18 windows-1251 DUMP n° 3-18
19 lien n°19 PA n° 3-19 utf-8 DUMP n° 3-19
20 lien n°20 PA n° 3-20 utf-8 DUMP n° 3-20
21 lien n°21 PA n° 3-21 utf-8 DUMP n° 3-21
22 lien n°22 PA n° 3-22 utf-8 DUMP n° 3-22
23 lien n°23 PA n° 3-23 utf-8 DUMP n° 3-23
24 lien n°24 PA n° 3-24 utf-8 DUMP n° 3-24
25 lien n°25 PA n° 3-25 utf-8 DUMP n° 3-25
26 lien n°26 PA n° 3-26 utf-8 DUMP n° 3-26
27 lien n°27 PA n° 3-27 utf-8 DUMP n° 3-27
28 lien n°28 PA n° 3-28 utf-8 DUMP n° 3-28
29 lien n°29 PA n° 3-29 utf-8 DUMP n° 3-29
30 lien n°30 PA n° 3-30 utf-8 DUMP n° 3-30
31 lien n°31 PA n° 3-31 utf-8 DUMP n° 3-31
32 lien n°32 PA n° 3-32 utf-8 DUMP n° 3-32
33 lien n°33 PA n° 3-33 utf-8 DUMP n° 3-33
34 lien n°34 PA n° 3-34 windows-1251 DUMP n° 3-34
35 lien n°35 PA n° 3-35 utf-8 DUMP n° 3-35
36 lien n°36 PA n° 3-36 utf-8 DUMP n° 3-36
37 lien n°37 PA n° 3-37 utf-8 DUMP n° 3-37
38 lien n°38 PA n° 3-38 utf-8 DUMP n° 3-38
39 lien n°39 PA n° 3-39 utf-8 DUMP n° 3-39
40 lien n°40 PA n° 3-40 utf-8 DUMP n° 3-40
41 lien n°41 PA n° 3-41 utf-8 DUMP n° 3-41
42 lien n°42 PA n° 3-42 utf-8 DUMP n° 3-42
43 lien n°43 PA n° 3-43 utf-8 DUMP n° 3-43
44 lien n°44 PA n° 3-44 utf-8 DUMP n° 3-44
45 lien n°45 PA n° 3-45 utf-8 DUMP n° 3-45
46 lien n°46 PA n° 3-46 utf-8 DUMP n° 3-46
47 lien n°47 PA n° 3-47 utf-8 DUMP n° 3-47
48 lien n°48 PA n° 3-48 windows-1251 DUMP n° 3-48
50 lien n°50 PA n° 3-50 windows-1251 DUMP n° 3-50

Ensuite...

Analyses I


Nous avons tout d'abord écrit un script (disponible ici) pour extraire les contextes dans lesquels apparaît le nom de l'actuel président russe, pour ensuite faire quelques analyses à l'aide du Trameur. Voici les graphes des coocurrents (cliquez pour agrandir) :


Cooccurrents pour le corpus d'Urls en Français



Cooccurrents pour le corpus d'Urls en Anglais



Cooccurrents pour le corpus d'Urls en Russe



Cooccurrents pour le corpus Twitter en Français



Cooccurrents pour le corpus Twitter en Anglais



Cooccurrents pour le corpus Twitter en Russe


BONUS : un petit point Godwin.


Ensuite...

Analyses II


Allez, quelques petits nuages de mots pour finir ! (cliquez pour agrandir)

À propos de nous.