Transidentité - bilan

Bilan du Projet


Nous arrivons à la fin de ce projet, et il est temps de faire un bilan de nos recherches, et de nos résultats. Pour ce faire, nous allons revenir à chaque étape du projet.

A la Recherche d'un Sujet

Définition du projet

Première étape importante de ce projet, un thème! Il nous fallait un sujet qui nous donnerait suffisamment de matière à analyser (à savoir 50 URLs par langues), et qui nous intéressait. A force de s’échanger des idées (plus ou moins pertinentes ou joyeuses, comme la place de la femme dans notre société, le suicide, l’écologie) nous avons fini par parler de la transidentité, et après avoir constaté sur les réseaux sociaux certains mouvements naître ces derniers mois, dont le slogan “Trans Black Lives Matter” (qui suit le mouvement “Black Lives Matter”), nous nous sommes dit qu’il serait intéressant d’aborder la thématique, étant donné que l’on parle souvent de LGBTQ ou des homosexuels plus particulièrement, mais déjà moins des transgenres, alors qu’elles sont bien présentes dans notre société.

Donc nous avions une thématique principale: la transidentité. C’est bien beau, mais malheureusement ça n’est pas une problématique! Au début nous avions plusieurs pistes, comme par exemple les enfants se revendiquant transgenres, et d’autres sujets assez précis comme ça, mais nous n’avions pas assez de matière pour traiter ça. Après quelques recherches, nous en avons conclu que la meilleure problématique pour ce sujet là serait de se concentrer sur les discriminations que les transgenres subissent: cela nous donnerait une problématique et un angle de recherche suffisamment précis pour nos recherches, et en même temps assez large pour récupérer suffisamment d’URLs pour chaque langues.

En parlant des langues, dans notre cas il n’y avait pas d’hésitations particulières: nous maîtrisions toutes deux le français et l’anglais, et chacune de nous pouvait apporter une langue supplémentaire, à savoir le coréen et le japonais. Nous avions pensé à ajouter également l’espagnol à nos recherches, mais finalement nous ne l’avons pas fait, et ce n’est pas plus mal car nous aurions définitivement manqué de temps pour boucler ce projet, ou alors la qualité aurait été moins bonne… Car mine de rien, c’était du boulot à faire pour deux!

Recherche des Liens

Nous en avions parlé en détail sur le blog, mais nous allons revenir tout de même sur la recherche des liens, qui n’aura pas été tranquille!

Pour rappel, nous visons des URLs traitant des discriminations envers les transgenres, en anglais, coréen, français et japonais. Pour avoir des résultats à peu près équivalents dans le type de données, nous avons choisi de viser des articles de presse.

Très vite, nous nous sommes malheureusement rendues compte que trouver 50 URLs sur cette thématique allait être une tâche ardue, car visiblement ce n’est pas un sujet beaucoup traité par la presse… Ce qui nous a étonné, puisque nous croisions ce genre de thématique assez fréquemment sur les réseaux sociaux, peut-être était-ce une différence due au support, ou à la tranche d’âge de celles-ci? Nous aurions pu nous pencher plus sur la question, mais le temps manquait, et nous avions déjà accumulé trop de retard en cherchant nos URLs!

Mais à force de persévérer, nous sommes finalement parvenues à trouver nos 200 URLs, non sans multiplier les mots clés pour les trouver! “Discrimination”, “inégalités”, “transphobie”, nous employions tous les synonymes possibles! Finalement, seuls les 50 URLs de l’anglais ont été relativement facile à réunir (du moins, comparé aux autres langues…)

Cependant, nous avons déjà constaté quelques choses concernant notre problématique: le fait que l’on parle beaucoup de LBGT de manière “générale” plutôt qu'une partie en particulier (ce qui n’aidait pas nos affaires… Bon nombre d’articles que nous pensions entrer dans le sujet parlaient finalement des LGBTs de manière générale, le mot “transgenre” n’apparaissant que pour définir ce qu’était LGBT), mais également les articles étaient similaires, deux trois articles pouvaient parler du même sujet (et on ne compte même pas la dizaine d’articles dans chaque langues sur les propos transphobes de JK Rowling!). Pour résumer: c’était la galère, mais nous avons finalement tout réuni! Maintenant, il nous fallait passer au traitement de ces URLs.

Le Traitement des urls

Le traitement ayant déjà été détaillée dans la partie consacrée ainsi que sur le blog, nous ne revenons que brièvement dessus.

Au début nous étions parties sur un seul gros script, il a finalement été décidé de diviser le tout en plusieurs sous-programmes appelés par un programme principal. Nous nous retrouvons donc avec quatre programmes en bash, et un dernier script python servant pour le japonais, mais nous allons revenir dessus après.

Si maintenant nous avons des programmes fonctionnant très bien, ce n’était pas le cas il y a encore quelques semaines! Nous avions enchainé les problèmes d’encodage non détectés ou mal détectés, ou encore des pages de cookies qui s’étaient récupérées à la place de l’article! La plupart de ces problèmes venaient du fait que nous n’avions pas réussi à faire fonctionner le programme detect-encoding.pl… Car les têtes en l’air que nous sommes avions oublié d’installer les bibliothèques Perl nécessaires ! Heureusement grâce à l’aide de nos professeurs (que nous remercions) nous sommes parvenues à régler la majorité de nos soucis de récupération d’URLs, et nous avons des pertes assez minimes.

Après ces péripéties, nous lançons notre programme, notre beau tableau apparaît, et il semble bien complet. Super! Fin de l’histoire, on passe à l’analyse alors? Malheureusement non, puisque lorsque nous avons cliqué sur l’index en japonais, nous avons constaté que nous n’avions pas des mots, mais des phrases entières!

Et oui, le japonais ne possédant pas d’espace, il nous fallait faire un traitement supplémentaire pour cette langue, celui de la tokenisation! Heureusement pour nous, ce n’était pas si compliqué, et d’anciens élèves expliquaient très bien comment faire. Nous avons nous même expliqué comment nous avions fait sur le blog. Il nous a fallu installer la librairie janome, et réaliser un petit script python, et le tour était joué! Cette fois, on relance le programme principal… Et ça marche! Le tableau est là, et est correctement rempli! On passe à l’analyse maintenant.

Analyse et Nuage de Mot

Comparé aux parties précédentes, nous n’avons pas rencontré de gros problèmes avec cette partie-là, nous avions de petites difficultés à droite à gauche, mais rien de trop grave.

Hormis les nombreux mots vides dont il fallait faire abstraction, il nous fallait donc regarder nos résultats, faire des observations et en tirer des conclusions. Nous étions déjà contentes de voir qu’il y avait de quoi analyser, car une de nos craintes était de constituer un corpus qui au final n’allait pas s’avérer intéressant et/ou dont on ne pouvait émettre des hypothèses, mais ça n’a pas été le cas ici.

iTrameur

Pour nous donner un fil conducteur commun à nos quatre corpus, nous avons décidé de diriger nos analyse autour de trois mots clés: transgenre, transphobie et discrimination, estimant que c’était les trois termes les plus représentatifs de notre thématique.

Finalement, il s’est avéré que le terme “transphobie” n’était pas autant utilisé que nous l’aurions cru, et maintenant que nous avons les résultats nous pouvons effectivement remettre en question l’intérêt d’utiliser ce mot là, mais nous avons tout de même décidé de le laisser dans nos analyses, ayant trouvé deux-trois choses à dire dessus.

Pour l’analyse en elle-même, nous avons utilisé trois outils d’iTrameur: le dictionnaire, la ventilation, la cooccurrence (et éventuellement les contextes lorsque nous voulions nous pencher sur les phrases contenant un certain mot). Malheureusement nous n’avions pas une totale connaissance de toutes les possibilités qu’offraient iTrameur et nous avons fait tout notre possible avec le temps dont nous disposions, néanmoins nous avons pu exploiter le site correctement (du moins nous l’espérons) pour en tirer des résultats.

Autant sortir des données n’était pas si compliqué, mais une fois que nous avions les fréquences de chaque mot, les graphiques, cooccurrences et on en passe, il fallait pouvoir en tirer des informations intéressantes! Et mine de rien, la tâche était un peu plus ardue, nous ne voulions pas sauter à des conclusions trop hâtives (et fausses), mais en même temps il nous fallait émettre des hypothèses pour avancer! Après plusieurs heures de recherches, nous avons réalisé la partie Analyse que vous avez lu (normalement).

Nuage de Mots

Le plus long sur cette partie finalement aura été d’enlever le plus de mot vides dans chaque nuage, et pour le japonais et le coréen d’installer une police supportant les caractères de ces langues!

Etant donné que cet outil nous sert davantage à avoir une vue d’ensemble sur notre corpus plutôt que t’en tirer des hypothèses bien précises (comparé à iTrameur), nous avons décidé de constater les thématiques ressortant le plus sur chaque nuage, en prenant pour appui les mots apparaissant sur l’image. Sans grande surprise, ce sont les mêmes sujets qui revenaient pour chaque nuages: l’identité, la législation, le médical, le travail et l’école, etc.

Le Site

Nous avions désormais des scripts, des corpus, des analyses, et il nous fallait centraliser tout ça dans un même endroit, ailleurs que sur le blog (où nous étions assez limité), et c’est là qu’entre en jeu ce site!

Et parce que nous n’avions pas déjà assez de travail comme ça et parce que nous aimons nous compliquer la vie, nous avions décidé de le réaliser par nous-même, sans modèle! Par chance, nous avions déjà créé un premier site il y a de cela 2 ans environ, si ce n’est plus, donc nous avions déjà quelques bases en HTML et CSS. Même si nous avions oublié beaucoup de choses, cela nous est revenu assez rapidement, et avec du travail, cela a donné ce site, sur lequel vous êtes actuellement.

Bien sûr, même si nous avons réalisé cela seules, nous avons eu recours à des ressources, que voici:

  • Tout d’abord la police d’écriture qui occupe nos titres et notre menu, la Baron Neue
  • Et les graphiques interactifs Google, qui nous ont permis d’afficher les trois graphes présents sur ce site
  • Bilan de nos recherches

    Au final, que peut-on retenir de l’analyse de nos corpus?

    Pour rappel, notre sujet de recherche était le suivant: les discriminations subies par les personnes transgenres.

    Notre hypothèse de départ était la suivante: nous pensions que dans les articles japonais et coréens, nous allions avoir moins de détail sur les discriminations, pas de réels thèmes se dégageant, peut-être éventuellement le regard de la société sur les transgenres, mais peut-être peu de textes de lois mentionnés par exemple, trouvant que, d’après ce que l’on connaît de nos langues orientales et de leurs cultures, elles ne sont pas aussi “avancé” si on peut dire, en termes de droits LGBT et de leur acceptation dans la société. Après nous sommes bien conscientes que même si la France et les Etats-Unis ont tendance à être plus avancés sur la question, il y a encore beaucoup de progrès à faire, et les mentalités sont encore en train d’évoluer.

    A partir de nos résultats, on peut constater que notre hypothèse s’avère plutôt fausse. En japonais nous retrouvons les mêmes thématiques abordées que le français et l’anglais, avec les notions d’identité, de médecine, et le domaine législatif qui sont très représentés.

    Pour le coréen, le nombre de domaines mentionnés en termes de discrimination est même plus grand que pour les autres langues! Là où il est également question d’identité, de médecine ou de législatif, les thèmes de l’éducation et du social sont aussi grandement ressortis, alors que c’est plus atténué pour les autres langues.

    Après, il faut remettre les choses dans leurs contextes et aussi se rappeler que le coréen et le japonais ont été les langues les plus dures à trouver en termes d’articles, la grande majorité traitant surtout de l’aspect culturel, notamment de personnages transgenres dans telle ou telle série, nos corpus sont donc qu’une petite partie du traitement de la question transgenre dans la presse, voilà pourquoi nous disons “plutôt fausse” que “complètement fausse”, même si nous avouons avoir été plus surprise de certains résultats lors de nos analyses (notamment sur la faible représentation du mot “transphobie”).

    C’est à peu près tout ce que nous avons à dire, merci d’avoir pris le temps d’avoir lu notre site, et à bientôt!


    via GIPHY