Cours Projet encadré 2013-2014 - plurital.org

Projet : la vie des mots sur le web


Projet : phase 1

Le script construisant les tableaux ci-dessous utilisent une partie des fichiers d'URL utilisés par un groupe d'étudiants 2012/2013 qui a travaillé sur le projet "Américanisation"
La Thématique : Américanisation
CF http://www.tal.univ-paris3.fr/plurital/travaux-2012-2013/projets-2012-2013-S1/Bawden-Megahed-bg/Pages/index.html

On a en sortie ici 3 tableaux (un pour chaque fichier d'URL en entrée). Chaque tableau contient les colonnes suivantes :
PAGES ASPIREES : lien vers la page associée à l'URL visée
DUMP initial(non utf-8) : si la page aspirée n'est pas en UTF-8, on a un DUMP dans l'encodage initial
DUMP utf-8 : le DUMP de la page en UTF-8 (obtenu soit directement soit par conversion du précédent)
CONTEXTES utf-8 : extraction des contextes (dans le fichier précédent)
CONTEXTES HTML : extraction des contextes au format HTML (via le programme minigrep en perl)
INDEX : un fichier "dictionnaire" du DUMP i.e tous les mots associés à leur fréquence

On trouve aussi au bas de chaque tableau :
(1) le fichier concaténant tous les DUMPs du même tableau
(2) le fichier concaténant tous les contextes du même tableau
et le dictionnaire des 2 précédents fichiers.
Les fichiers (1) et (2) seront utilisés dans la seconde partie du projet.

Ci-dessous, l'ossature du script utilisé (c'est une proposition possible, d'autres sont possibles) :

Le mot "magique" est : \bam.ri(c|q)\w+\b (i.e. une regexp pour attraper le maximum de forme autour du thème choisi... on pourrait faire mieux ici)

Les TABLEAUX de données

Tableau n° 1

fichier : Anglais_Americain.txt
n°URLURLPAGES ASPIREESDUMP initial
(non utf-8)
DUMP utf-8
CONTEXTES utf-8
MOTIF : \bam.ri(c|q)\w+\b
CONTEXTES HTML
MOTIF : \bam.ri(c|q)\w+\b
INDEX
Fq par mot
1http://blogs.seattleweekly.com/voracious/2012/10/the_woman_who_taste_restaurant.php Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
2http://www.washingtontimes.com/news/2008/jun/8/americas-identity-crisis/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
3http://blogs.wsj.com/speakeasy/2012/11/22/will-the-korean-pop-culture-boom-have-legs/ 3.html - 3-utf8.txt3-utf8.txt3-utf8.html3-utf8.txt
4http://dinersjournal.blogs.nytimes.com/2009/11/24/the-way-we-ate-the-americanization-of-the-state-dinner/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
5http://globalpolitician.com/22654-globalization Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
6http://india.blogs.nytimes.com/2012/03/10/how-india-became-america/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
7http://keranews.org/post/even-americans-find-some-britishisms-spot Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
8http://news.medill.northwestern.edu/chicago/news.aspx?id=213017 Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
9http://opinionator.blogs.nytimes.com/2012/07/14/sartre-and-camus-in-new-york/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
10http://query.nytimes.com/gst/fullpage.html?res=9905E4D9173BF932A25750C0A9649D8B63 Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
11http://rendezvous.blogs.nytimes.com/2012/11/30/france-abuzz-over-the-return-of-the-whopper/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
12http://rt.com/news/russell-means-interview-116/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
13http://thechoice.blogs.nytimes.com/2012/01/12/choice-on-india-ink-2/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
14http://truth-out.org/opinion/item/12336-greeces-new-americanized-healthcare-system 14.html14.txt
(utf-8)
14-utf8.txt14-utf8.txt14-utf8.html14-utf8.txt
15http://utdailybeacon.com/opinion/columns/guest/2012/nov/15/traditional-america-not-wanted/ 15.html - 15-utf8.txt15-utf8.txt15-utf8.html15-utf8.txt
16http://www.chicagonow.com/an-agnostic-in-wheaton/2012/12/holiday-tree-instead-of-christmas-tree-this-is-the-%E2%80%9Cwar-on-christmas%E2%80%9D/ 16.html - 16-utf8.txt16-utf8.txt16-utf8.html16-utf8.txt
17http://www.emel.com/article?id=85&a_id=2373 17.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
18http://www.globalenvision.org/library/33/1273/ 18.html - 18-utf8.txt18-utf8.txt18-utf8.html18-utf8.txt
19http://www.huffingtonpost.com/ian-reifowitz/obamas-america-at-debate_b_1972421.html 19.html - 19-utf8.txt19-utf8.txt19-utf8.html19-utf8.txt
20http://www.jsonline.com/entertainment/arts/book-explores-cultures-route-to-inventing-the-christmas-tree-7s7pjne-181572861.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
21http://www.nytimes.com/1991/05/23/movies/critic-s-notebook-haunting-cannes-the-monster-americanization.html?pagewanted=all&src=pm Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
22http://www.nytimes.com/1994/02/27/business/l-the-americanization-of-video-europe-319198.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
23http://www.nytimes.com/1995/09/06/movies/americanization-of-a-film-festival.html?pagewanted=all&src=pm Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
24http://www.nytimes.com/1995/09/11/opinion/the-americanization-ideal.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
25http://www.nytimes.com/1996/12/10/sports/the-americanization-of-an-offbeat-player.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
26http://www.nytimes.com/1998/08/22/opinion/foreign-affairs-angry-wired-and-deadly.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
27http://www.nytimes.com/2000/01/25/business/worldbusiness/25iht-think.2.t_1.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
28http://www.nytimes.com/2011/03/10/fashion/10PARIS.html?_r=0&adxnnl=1&pagewanted=all&adxnnlx=1351186113-kl63WWB6KX1UEOLYFLl4rg Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
29http://www.nytimes.com/2012/08/20/business/global/20iht-manager20.html?_r=0 Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
30http://www.nytimes.com/2090/01/10/magazine/10psyche-t.html?pagewanted=all&_r=0 Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
31http://www.seattleweekly.com/2012-11-07/food/taste-shows-visitors-the-way-to-a-man-s-heart/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
32http://www.sfgate.com/business/prweb/article/AOC-Solutions-Inc-Shows-Community-Support-with-4022695.php 32.html32.txt
(utf-8)
32-utf8.txt32-utf8.txt32-utf8.html32-utf8.txt
33http://www.sfgate.com/business/prweb/article/International-Expeditions-Offers-500-Air-Credit-4053349.php 33.html33.txt
(utf-8)
33-utf8.txt33-utf8.txt33-utf8.html33-utf8.txt
34http://www.somdnews.com/article/20121123/NEWS/711239836/1059/how-new-eyes-see-it&template=southernMaryland Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
35http://www.stltoday.com/news/opinion/columns/the-platform/editorial-thanksgiving-a-good-time-to-examine-immigration-policies/article_63aa70f8-a0bb-59d7-bbfb-ba7fd3a7553c.html 35.html - 35-utf8.txt35-utf8.txt35-utf8.html35-utf8.txt
36http://www.theatlantic.com/past/docs/issues/58jun/emmanuel.htm Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
37http://www.theatlantic.com/politics/archive/2012/12/we-need-a-path-to-citizenship-for-all-americans-not-just-immigrants/266237/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
38http://www.thefiscaltimes.com/Columns/2012/11/05/As-Asian-Economies-Grow-American-Influence-Shrinks.aspx#page1 38.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
39http://www.uvureview.com/2012/11/05/guy-fawkes/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
40http://www.washingtontimes.com/news/2002/jan/8/20020108-034725-6207r/print/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
41http://www.washingtontimes.com/news/2004/dec/30/20041230-114327-7178r/?page=all Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
42http://www.washingtontimes.com/news/2004/sep/8/20040908-085546-1123r/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
43http://www.washingtontimes.com/news/2005/may/27/20050527-090423-5184r/?page=all Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
44http://www.washingtontimes.com/news/2006/nov/15/20061115-122430-3254r/?page=all Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
45http://www.washingtontimes.com/news/2010/sep/15/homegrown-terror-threat-not-taken-seriously/?page=all Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
46http://www.latimes.com/entertainment/arts/culture/la-et-cm-review-a-snow-white-christmas-at-the-pasadena-playhouse-20121213,0,1255732.story 46.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
47http://www.washingtontimes.com/news/2008/jun/8/americas-identity-crisis/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
48http://www.washingtontimes.com/blog/mystics-watch/2011/sep/6/ajavon-one-top-contenders-wnba-most-improved-playe/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
49http://www.washingtontimes.com/news/2010/jul/13/ads-cabs-target-honor-killings/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
50http://www.cbsnews.com/2100-201_162-6790231.html 50.html50.txt
(iso-8859-1)
50-utf8.txt50-utf8.txt50-utf8.html50-utf8.txt
51http://ideas.time.com/2012/03/20/dont-pick-on-immigrants-re-americanize-everyone/ 51.html51.txt
(UTF-8)
51-utf8.txt51-utf8.txt51-utf8.html51-utf8.txt
52http://articles.nydailynews.com/2010-08-20/local/27073241_1_ground-zero-mosque-muslim-world Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
53http://www.humanevents.com/2007/03/12/americanize-americas-immigrants/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
54http://www.rawlinstimes.com/opinion/columns/article_05951a28-d14b-11e1-b400-001a4bcf887a.html 54.html - 54-utf8.txt54-utf8.txt54-utf8.html54-utf8.txt
55http://www.reuters.com/article/2010/03/12/us-somalia-usa-idUSTRE62B47J20100312 55.html55.txt
(ISO-8859-1)
55-utf8.txt55-utf8.txt55-utf8.html55-utf8.txt
 Fichier DUMP
global

13 fichier(s)
Fichier CONTEXTES
global

13 fichier(s)
Index sur DUMP
global

13 fichier(s)
Index sur Contextes
global

13 fichier(s)


Tableau n° 2

fichier : Anglais_Britannique.txt
n°URLURLPAGES ASPIREESDUMP initial
(non utf-8)
DUMP utf-8
CONTEXTES utf-8
MOTIF : \bam.ri(c|q)\w+\b
CONTEXTES HTML
MOTIF : \bam.ri(c|q)\w+\b
INDEX
Fq par mot
1http://blogs.telegraph.co.uk/culture/allanmassie/100063688/theres-nothing-wrong-with-americanisms-its-management-speak-that-is-the-enemy-of-english/ 1.html - 1-utf8.txt1-utf8.txt1-utf8.html1-utf8.txt
2http://blogs.telegraph.co.uk/culture/harrymount/100044862/the-death-of-the-bath-another-casualty-of-the-pace-of-modern-life/ 2.html - 2-utf8.txt2-utf8.txt2-utf8.html2-utf8.txt
3http://blogs.telegraph.co.uk/news/danielhannan/100079666/is-the-internet-americanising-or-americanizing-british-english/ 3.html - 3-utf8.txt3-utf8.txt3-utf8.html3-utf8.txt
4http://blogs.telegraph.co.uk/news/tobyharnden/6043777/Top_10_most_annoying_Americanisms/ 4.html4.txt
(UTF-8)
4-utf8.txt4-utf8.txt4-utf8.html4-utf8.txt
5http://hitchensblog.mailonsunday.co.uk/2006/06/do_you_speak_am.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
6http://news.bbc.co.uk/2/hi/americas/6547881.stm 6.html6.txt
(iso-8859-1)
6-utf8.txt6-utf8.txt6-utf8.html6-utf8.txt
7http://news.bbc.co.uk/2/hi/programmes/2956878.stm 7.html7.txt
(iso-8859-1)
7-utf8.txt7-utf8.txt7-utf8.html7-utf8.txt
8http://news.bbc.co.uk/2/hi/uk_news/3166815.stm 8.html8.txt
(iso-8859-1)
8-utf8.txt8-utf8.txt8-utf8.html8-utf8.txt
9http://news.bbc.co.uk/2/hi/uk_news/4881474.stm 9.html9.txt
(iso-8859-1)
9-utf8.txt9-utf8.txt9-utf8.html9-utf8.txt
10http://news.bbc.co.uk/2/hi/uk_news/733383.stm 10.html10.txt
(iso-8859-1)
10-utf8.txt10-utf8.txt10-utf8.html10-utf8.txt
11http://news.bbc.co.uk/2/hi/uk_news/education/645283.stm 11.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
12http://news.bbc.co.uk/2/hi/uk_news/england/essex/2967046.stm 12.html12.txt
(iso-8859-1)
12-utf8.txt12-utf8.txt12-utf8.html12-utf8.txt
13http://news.bbc.co.uk/2/hi/uk_news/politics/3018367.stm 13.html13.txt
(iso-8859-1)
13-utf8.txt13-utf8.txt13-utf8.html13-utf8.txt
14http://politicsontoast.com/2011/07/21/healthcare-why-we-shouldnt-fear-the-cry-americanisation372/ 14.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
15http://thefilmreview.com/film-news/doctor-movie-wont-americanised-moffat.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
16http://www.bbc.co.uk/blogs/thereporters/nickbryant/2009/12/the_american_in_australia.html 16.html - 16-utf8.txt16-utf8.txt16-utf8.html16-utf8.txt
17http://www.bbc.co.uk/news/14130942 17.html17.txt
(utf-8)
17-utf8.txt17-utf8.txt17-utf8.html17-utf8.txt
18http://www.bbc.co.uk/news/world-us-canada-12066768 18.html18.txt
(utf-8)
18-utf8.txt18-utf8.txt18-utf8.html18-utf8.txt
19http://www.bbc.co.uk/news/world-us-canada-14285853 19.html19.txt
(utf-8)
19-utf8.txt19-utf8.txt19-utf8.html19-utf8.txt
20http://www.belfasttelegraph.co.uk/opinion/columnists/gail-walker/give-me-a-treat-and-cut-out-all-of-these-halloween-celebrations-16228172.html 20.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
21http://www.dailymail.co.uk/news/article-1282449/Americanisms-swamping-English-wake-smell-coffee.html 21.html21.txt
(iso-8859-1)
21-utf8.txt21-utf8.txt21-utf8.html21-utf8.txt
22http://www.dailymail.co.uk/news/article-2151400/Unstoppable-rise-American-English-Study-shows-young-Britons-copying-US-writing-style.html 22.html22.txt
(iso-8859-1)
22-utf8.txt22-utf8.txt22-utf8.html22-utf8.txt
23http://www.dailymail.co.uk/news/article-2183564/Harry-Potter-How-films-narrowly-avoided-relocation-America-studio-bosses.html 23.html23.txt
(iso-8859-1)
23-utf8.txt23-utf8.txt23-utf8.html23-utf8.txt
24http://www.educationstate.org/2010/12/11/americanisation-uk-education/ 24.html - 24-utf8.txt24-utf8.txt24-utf8.html24-utf8.txt
25http://www.ft.com/cms/s/0/d0c53556-0e46-11e2-b87e-00144feabdc0.html#axzz29xuzAjBy 25.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
26http://www.ft.com/intl/cms/s/0/8730b6a8-bc32-11df-8c02-00144feab49a.html#axzz2BNsC00Xf 26.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
27http://www.guardian.co.uk/books/2011/mar/10/english-spoke-voice-map-american 27.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
28http://www.guardian.co.uk/business/1999/oct/17/observerbusiness.theobserver8 28.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
29http://www.guardian.co.uk/commentisfree/2006/nov/03/theamericanisationoffrench?INTCMP=SRCH 29.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
30http://www.guardian.co.uk/commentisfree/2007/apr/12/comment.usa 30.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
31http://www.guardian.co.uk/commentisfree/2012/apr/06/london-mayoral-election-livingstone-boris?INTCMP=SRCH 31.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
32http://www.guardian.co.uk/education/2007/jun/06/highereducation.uk?INTCMP=SRCH 32.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
33http://www.guardian.co.uk/film/filmblog/2012/may/11/dictator-not-british 33.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
34http://www.guardian.co.uk/media/2002/jul/31/citynews.communicationsact?INTCMP=SRCH 34.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
35http://www.guardian.co.uk/media/2003/apr/25/broadcasting.Iraqandthemedia?INTCMP=SRCH 35.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
36http://www.guardian.co.uk/science/2011/may/12/mind-your-english-language 36.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
37http://www.guardian.co.uk/theobserver/2000/jan/23/focus.news?INTCMP=SRCH 37.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
38http://www.guardian.co.uk/theobserver/2001/jan/28/life1.lifemagazine7?INTCMP=SRCH 38.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
39http://www.guardian.co.uk/uk/1999/dec/21/2?INTCMP=SRCH 39.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
40http://www.guardian.co.uk/uk/2000/jan/27/davidbrindle?INTCMP=SRCH 40.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
41http://www.guardian.co.uk/world/2002/feb/06/usa.afghanistan 41.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
42http://www.heraldscotland.com/sport/spl/aberdeen/england-in-the-shadow-of-america-1.325801 42.html42.txt
(utf-8)
42-utf8.txt42-utf8.txt42-utf8.html42-utf8.txt
43http://www.heraldscotland.com/sport/spl/aberdeen/pm-faces-fight-over-tv-fears-of-american-invasion-1.143320 43.html43.txt
(utf-8)
43-utf8.txt43-utf8.txt43-utf8.html43-utf8.txt
44http://www.historytoday.com/david-ellwood/americanisation-or-globalisation 44.html - 44-utf8.txt44-utf8.txt44-utf8.html44-utf8.txt
45http://www.huffingtonpost.co.uk/2012/04/05/tax-returns-and-the-americanisation-of-british-politics_n_1405245.html 45.html45.txt
(utf-8)
45-utf8.txt45-utf8.txt45-utf8.html45-utf8.txt
46http://www.independent.co.uk/voices/comment/american-influence-on-the-middle-east-is-past-its-peak--someone-should-tell-them-8190901.html 46.html - 46-utf8.txt46-utf8.txt46-utf8.html46-utf8.txt
47http://www.metro.co.uk/home/4430-is-tv-becoming-americanised 47.html47.txt
(UTF-8)
47-utf8.txt47-utf8.txt47-utf8.html47-utf8.txt
48http://www.newsbiscuit.com/2011/08/15/rioters-denounce-americanisation-of-british-way-of-rioting/ 48.html - 48-utf8.txt48-utf8.txt48-utf8.html48-utf8.txt
49http://www.opendemocracy.net/dimitar-bechev/americanisation-of-turkey 49.html - 49-utf8.txt49-utf8.txt49-utf8.html49-utf8.txt
50http://www.opendemocracy.net/ourkingdom/anthony-barnett/say-no-to-senate-americanisation-of-uk-has-gone-far-enough-ok-competition 50.html - 50-utf8.txt50-utf8.txt50-utf8.html50-utf8.txt
51http://www.opendemocracy.net/ourkingdom/gerry-hassan/british-election-debates-lib-dem-surge-and-americanisation-of-our-politics 51.html - 51-utf8.txt51-utf8.txt51-utf8.html51-utf8.txt
52http://www.polarimagazine.com/heroes-villains/british-christians-americanised/ 52.html - 52-utf8.txt52-utf8.txt52-utf8.html52-utf8.txt
53http://www.scotsman.com/news/stephen-mcginty-the-case-for-us-and-them-1-2554252 53.html - 53-utf8.txt53-utf8.txt53-utf8.html53-utf8.txt
54http://www.technicallyfunny.net/2012/02/is-uk-smartphone-market-being.html 54.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
55http://www.telegraph.co.uk/culture/tvandradio/bbc/7553057/BBC-criticised-for-creeping-Americanisms.html 55.html - 55-utf8.txt55-utf8.txt55-utf8.html55-utf8.txt
56http://www.telegraph.co.uk/news/uknews/1567385/Scottish-festival-bans-American-Halloween.html 56.html - 56-utf8.txt56-utf8.txt56-utf8.html56-utf8.txt
57http://www.telegraph.co.uk/news/worldnews/australiaandthepacific/australia/8732837/Julia-Gillard-criticises-Amercanisation-of-Australian-politics.htmlhttp://www.telegraph.co.uk/finance/newsbysector/retailandconsumer/8579550/School-disco-replaced-by-American-prom.htmlhttp://www.telegraph.co.uk/news/celebritynews/8131242/Penelope-Keith-bemoans-poor-use-of-English-language.htmlhttp://www.telegraph.co.uk/culture/tvandradio/bbc/7553057/BBC-criticised-for-creeping-Americanisms.html 57.html57.txt
(utf-8)
57-utf8.txt57-utf8.txt57-utf8.html57-utf8.txt
58http://www.telegraph.co.uk/news/worldnews/northamerica/usa/2575395/British-anti-Americanism-based-on-misconceptions.html 58.html - 58-utf8.txt58-utf8.txt58-utf8.html58-utf8.txt
59http://www.thegunninghawk.com/2011/04/13/martin-keown-on-arsenals-americanisation-arsene-wenger-will-make-key-signings/ Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
60http://www.thelawyer.com/winners-in-pi039s-039americanisation039/101811.article Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
61http://www.timeshighereducation.co.uk/story.asp?storycode=419700 61.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
62http://www.wpp.com/annualreports/2007/what_we_think/ad_marketing_services/seven_key_factors/globalisation.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
63http://www.guardian.co.uk/world/2012/nov/05/russia-view-us-elections 63.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
 Fichier DUMP
global

35 fichier(s)
Fichier CONTEXTES
global

35 fichier(s)
Index sur DUMP
global

35 fichier(s)
Index sur Contextes
global

35 fichier(s)


Tableau n° 3

fichier : Francais.txt
n°URLURLPAGES ASPIREESDUMP initial
(non utf-8)
DUMP utf-8
CONTEXTES utf-8
MOTIF : \bam.ri(c|q)\w+\b
CONTEXTES HTML
MOTIF : \bam.ri(c|q)\w+\b
INDEX
Fq par mot
1http://blog.lefigaro.fr/le-fol/2011/03/marine-le-pen-ce-prenom-qui-ne-veut-pas-dire-son-nom.html 1.html - 1-utf8.txt1-utf8.txt1-utf8.html1-utf8.txt
2http://elections.lefigaro.fr/presidentielle-2012/2012/03/12/01039-20120312ARTFIG00632-europe-le-buy-american-act-pour-modele.php 2.html - 2-utf8.txt2-utf8.txt2-utf8.html2-utf8.txt
3http://www.lefigaro.fr/lefigaromagazine/2011/11/26/01006-20111126ARTFIG00595-le-nouveau-mecontemporain.php 3.html - 3-utf8.txt3-utf8.txt3-utf8.html3-utf8.txt
4http://www.lefigaro.fr/actualite-france/2009/10/30/01016-20091030ARTFIG00543-quid-d-halloween-pour-l-identite-nationale-.php 4.html - 4-utf8.txt4-utf8.txt4-utf8.html4-utf8.txt
5http://www.lefigaro.fr/sortir-paris/2012/01/03/03013-20120103ARTFIG00708-blase-comme-un-parisien.php 5.html - 5-utf8.txt5-utf8.txt5-utf8.html5-utf8.txt
6http://www.lefigaro.fr/international/2010/07/30/01003-20100730ARTFIG00588-le-toit-du-monde-offre-deux-visages.php 6.html - 6-utf8.txt6-utf8.txt6-utf8.html6-utf8.txt
7http://www.lefigaro.fr/politique/2008/01/05/01002-20080105ARTFIG00029-un-conseil-de-defense-et-de-securite-nationale-.php 7.html - 7-utf8.txt7-utf8.txt7-utf8.html7-utf8.txt
8http://www.lepoint.fr/culture/le-repas-a-la-francaise-fait-de-la-resistance-08-11-2011-1393858_3.php 8.html - 8-utf8.txt8-utf8.txt8-utf8.html8-utf8.txt
9http://www.lepoint.fr/actualites/2007-07-18/sarkozy-cherche-une-americanisation-du-pouvoir-estime-bayrou/1037/0/192844 9.html - 9-utf8.txt9-utf8.txt9-utf8.html9-utf8.txt
10http://www.lepoint.fr/actualites-chroniques/2007-01-23/amerique-la-menace-fantome/989/0/73227 10.html - 10-utf8.txt10-utf8.txt10-utf8.html10-utf8.txt
11http://www.lepoint.fr/actualites-monde/2007-01-26/france-etats-unis-le-contrepoids/924/0/95591 11.html - 11-utf8.txt11-utf8.txt11-utf8.html11-utf8.txt
12http://www.lepoint.fr/actualites-politique/2007-07-19/le-desir-du-chef-apparait-quand-une-societe-se-delite/917/0/193024 12.html - 12-utf8.txt12-utf8.txt12-utf8.html12-utf8.txt
13http://www.lepoint.fr/actualites-politique/2002-04-05/gourou-de-campagne/917/0/119971 13.html - 13-utf8.txt13-utf8.txt13-utf8.html13-utf8.txt
14http://www.lepoint.fr/actualites-monde/2009-06-12/l-otan-se-prepare-a-de-durs-combats-sous-un-commandement/924/0/352164 14.html - 14-utf8.txt14-utf8.txt14-utf8.html14-utf8.txt
15http://www.lexpress.fr/culture/livre/l-holocauste-dans-la-vie-americaine_798050.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
16http://www.lexpress.fr/actualites/1/societe/vers-un-memorial-day-a-la-francaise-pour-la-commemoration-du-11-novembre_1050056.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
17http://www.lexpress.fr/culture/livre/face-a-l-islam_809046.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
18http://www.lexpress.fr/culture/livre/claude-hagege-l-anglais-est-une-langue-tres-difficile_758995.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
19http://www.lexpress.fr/actualite/monde/sondage-l-anti-americanisme-progresse_465224.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
20http://www.lexpress.fr/informations/made-in-scandinavia_627015.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
21http://lecercle.lesechos.fr/entreprises-marches/finance-marches/autres/221154755/economies-echelle-tuent-fin-standardisation 21.html - 21-utf8.txt21-utf8.txt21-utf8.html21-utf8.txt
22http://lecercle.lesechos.fr/livres/bonnes-feuilles/221132821/le-retrait-de-letat-la-dispersion-du-pouvoir-dans-leconomie-mondial 22.html - 22-utf8.txt22-utf8.txt22-utf8.html22-utf8.txt
23http://archives.lesechos.fr/archives/2012/LesEchos/21228-130-ECH.htm 23.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
24http://rezonances.blog.lemonde.fr/2012/10/19/comment-twitter-et-facebook-americanisent-la-liberte-dexpression-francaise/ 24.html - 24-utf8.txt24-utf8.txt24-utf8.html24-utf8.txt
25http://www.lemonde.fr/idees/article/2011/10/10/vers-une-americanisation-de-la-politique-francaise_1584859_3232.html 25.html - 25-utf8.txt25-utf8.txt25-utf8.html25-utf8.txt
26http://www.lemonde.fr/idees/article/2011/09/06/les-primaires-sont-une-fausse-bonne-idee_1568238_3232.html 26.html - 26-utf8.txt26-utf8.txt26-utf8.html26-utf8.txt
27http://www.lemonde.fr/idees/article/2012/03/12/m-sarkozy-est-le-premier-president-postmoderne-de-la-ve-republique_1656559_3232.html 27.html - 27-utf8.txt27-utf8.txt27-utf8.html27-utf8.txt
28http://www.lemonde.fr/idees/article/2012/09/06/l-amerique-veritable-ennemi-de-richard-millet_1756663_3232.html 28.html - 28-utf8.txt28-utf8.txt28-utf8.html28-utf8.txt
29http://archives-lepost.huffingtonpost.fr/article/2010/09/01/2202521_quick-halal-non-a-l-islamisation-de-notre-americanisation.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
30http://archives-lepost.huffingtonpost.fr/article/2008/04/22/1184524_l-americanisation-de-la-france-en-7-points.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
31http://archives-lepost.huffingtonpost.fr/article/2009/04/28/1514216_la-mondialisation-n-est-plus-place-a-l-americanisation.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
32http://www.rue89.com/2007/07/18/bayrou-denonce-une-americanisation-du-pouvoir Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
33http://www.slate.fr/story/47809/pourquoi-francais-detestent-americains Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
34http://www.latribune.fr/journal/edition-du-2612/l-evenement/1234757/2011-l-annee-ou-les-socialistes-ont-americanise-la-vie-politique.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
35http://www.latribune.fr/entreprises-finance/banques-finance/industrie-financiere/20120703trib000707120/les-francais-preferent-l-argent-au-temps-libre.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
36http://www.liberation.fr/monde/01012306715-la-politique-francaise-s-americanise Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
37http://www.liberation.fr/monde/01012371668-l-europeen-existe-t-il Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
38http://www.liberation.fr/week-end/0101404989-l-americanisation-de-la-presidentielle Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
39http://www.liberation.fr/tribune/0101441854-l-americanisation-de-la-justice Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
40http://www.liberation.fr/tribune/0101462677-la-justice-francaise-vers-une-americanisation Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
41http://www.liberation.fr/tribune/0101450332-vers-une-americanisation-du-systeme-constitutionnel-francais Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
42http://tempsreel.nouvelobs.com/monde/20120914.OBS2435/barack-obama-face-au-defi-de-l-anti-americanisme.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
43http://tempsreel.nouvelobs.com/societe/20111111.OBS4317/un-memorial-day-a-la-francaise-pour-la-commemoration-du-11-novembre.html Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
44http://www.gira.info/fr/qui-sommes-nous/problematique-et-notions-cles/americanite-et-americanisation 44.html - 44-utf8.txt44-utf8.txt44-utf8.html44-utf8.txt
45http://www.lapresse.ca/arts/livres/201006/28/01-4293848-frederic-martel-la-culture-qui-plait-a-tout-le-monde.php 45.html - 45-utf8.txt45-utf8.txt45-utf8.html45-utf8.txt
46http://www.lapresse.ca/arts/livres/201006/28/01-4293848-frederic-martel-la-culture-qui-plait-a-tout-le-monde.php 46.html - 46-utf8.txt46-utf8.txt46-utf8.html46-utf8.txt
47http://www.monde-diplomatique.fr/2004/01/BLACKBURN/10953 Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
48http://www.monde-diplomatique.fr/1994/08/DUCLOS/656 48.html - 48-utf8.txt48-utf8.txt48-utf8.html48-utf8.txt
49http://www.monde-diplomatique.fr/1995/01/HALIMI/1142 Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
50http://www.monde-diplomatique.fr/1980/04/FLORENNE/35517 Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
51http://www.monde-diplomatique.fr/2002/03/BRUNE/16199 Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
52http://www.monde-diplomatique.fr/1995/01/HALIMI/1142 52.htmlEncodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
53http://www.monde-diplomatique.fr/2000/05/FANTASIA/13728 Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
54http://www.courrierinternational.com/article/2012/01/12/l-americanisation-de-la-chine Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
55http://www.courrierinternational.com/article/2010/12/22/l-innovation-n-est-pas-tout Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
56http://www.courrierinternational.com/chronique/2010/03/22/le-francais-resiste-l-allemand-collabore Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
57http://www.courrierinternational.com/article/2008/02/07/au-fond-kerviel-a-un-profil-presidentiel Page non aspirée...Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
Encodage
non détecté
58http://www.alternatives-economiques.fr/la-mondialisation-contre-l-amerique_fr_art_151_15954.html 58.html58.txt
(iso-8859-1)
58-utf8.txt58-utf8.txt58-utf8.html58-utf8.txt
 Fichier DUMP
global

26 fichier(s)
Fichier CONTEXTES
global

26 fichier(s)
Index sur DUMP
global

26 fichier(s)
Index sur Contextes
global

26 fichier(s)