La vie multilingue de 'censure et 'tabou' sur le web

Qu'est-ce que c'est, ce projet ?

"Programmation et Projet Encadré : La vie « multilingue » des mots sur le web"

Le but de ce cours était de nous faire travailler sur un projet concret de programmation. Au niveau recherche / anlayse, l'idée est d'observer la vie multilingue sur le web d'un (ou de deux, dans notre cas) mot(s) dans différentes langues. Autrement dit, de regarder dans quels contextes ces mots apparaissent. Nous avons opté pour les mots 'censure' et 'tabou', et en ce qui concerne les langues, nous avons choisi de travailler sur le français, l'anglais, l'allemand, le finnois et le russe. Au niveau du corpus, nous avons opté pour un corpus de presse numérique. Le projet dans sa globalité comporte plusieurs étapes : un script, une analyse de co-occurrences.

Le script que nous avions à développer devait être capable d'effectuer les traitements suivants :

Initialement, le langage de programmation retenu dans le cadre du cours pour écrire ce stript est bash. Nous avons choisi de construire également une version en python.

A partir de ces contextes, il nous a été possible de créer des nuages de mots (que vous avez pu voir en page d'accueil) et d'analyser les co-ocurrences des mots ciblés. Nous avons utilisé des outils gratuits en ligne comme Tagxedo ou Tagcrowd ainsi que l'outil de textométrie Le Trameur développé par les enseignants chercheurs de Paris 3.