Analyse textométrique avec iTrameur

Après avoir aspiré des pages, les avoir traitées pour en extraire des motifs en contexte et représenté les mots les plus fréquents sous forme de nuages, on peut analyser les corpus "dump" à l'aide d'outils textométriques. Le Trameur est un logiciel d'étude textométrique qui possède de nombreux outils. Il en existe une version allégée appelée "Itrameur", disponible en ligne,permettant de tracer des graphes représentant un pôle et ses cooccurrents.

Avant de l'utiliser, il a fallu retravailler le motif "crime d'honneur" afin de le transformer en unité sans délimiteurs. On a donc remplacé dans le corpus "dump" tous les délimiteurs (espaces, apostrophe) par des tirets underscore dans toutes les variantes du motif, puis on a retiré l'underscore de la liste des délimiteurs. L'opération a été répétée pour les corpus "dump" de chaque langue.

graphe pole et cooccurrents en français
Graphe représentant le pôle "crime d'honneur" en français et ses cooccurrents les plus fréquents.

Une fois les mots-outils (auxiliaires, déterminants, prépositions) écartés, les cooccurrents qui ressortent le plus autour du pôle "crime d'honneur" appartiennent pour la plupart à deux champs lexicaux : le juridique et l'islam. On trouve ainsi les mots "attanquant", "pepétrés", "commis", "auteurs" (qui peut aussi renvoyer à l'auteur d'un livre) ou "justifié" pour le champ juridique et "halal"(19 cooccurrences), "islam" (21) pour le champ de l'islam. On doit rappeler ici que la sélection d'un corpus comporte nécessairement des biais : par exemple lorsqu'on aspire un site de forum, l'intitulé du sujet est repris à chaque nouveau commentaire. Un titre comme "le crime d'honneur est-il halal en islam ?" sera donc repris de très nombreuses fois sur la page, faisant ainsi monter en flèche la fréquence de cooccurrence. Le mot "Pakistan" est surreprésenté du fait de la sélection des pages autour du fait divers de Qandeel Baloch (cf paragraphe sur l'analyse du graphe ourdou) qui avait eu un retentissement certain dans la presse (en particulier féminine) française et était survenu au mois de juin 2016. On observe aussi la présence du cooccurrent "étranger" (6). De nombreux sites fouillés tendent en effet à soutenir que le "crime d'honneur" est le fait de communautés allogènes. On peut alors se demander dans quelle mesure ce corpus est représentatif du traitement de ce motif en français.

graphe pole et cooccurrents les plus fréquents en ourdou
Graphe représentant le pôle "crime d'honneur" en ourdou - اردو میں "غیرت کے لئے قتل" کے نامونوں کی تصویر
tableau des cooccurrents les plus fréquents en ourdou
tableau des cooccurrents les plus fréquents en ourdou

Mots grammaticaux mis à part, les cooccurrents les plus fréquents sont "autorisation", "Pakistan","fatwa", "frère", "Qandeel","forcé(e)", "unanime" (se dit d'un vote ou d'une opinion). "Qandeel" et "frère" renvoient à un fait divers qui s'est produit au mois de juin au cours duquel Qandeel Baloch, une starlette pakistanaise, a été tuée par son frère qui ne supportait pas de la voir se montrer en public, sur les réseaux sociaux. L'affaire a beaucoup occupé les médias pakistanais et les liens des pages en ourdou ne renvoient pratiquement qu'à ce fait divers et à ses conséquences. On a beaucoup débattu de la légalité du "crime d'honneur" en islam, d'où la fréquence du terme "fatwa" qui désigne un avis religieux (et non une condamnation à mort). Comme une loi devait être promulguée fin 2016 suite à cette affaire contre ce genre de crime et que les lois ne doivent pas contrevenir aux prescriptions de l'islam, il fallait déterminer si le "crime d'honneur" avait des fondements religieux ou non (voir ce que disent lois de Hudood pour le règlement extra-judiciaire de certains conflits).

graphe pole et cooccurrents les plus fréquents en pendjabi, seuil à 5
Graphe représentant le pôle "crime d'honneur" en penjabi et ses cooccurrents les plus fréquents.

On ne trouve que trois mots peu significatifs, il faut donc abaisser le seuil de fréquence pour trouver d'autres cooccurrents. graphe pole et cooccurrents les plus fréquents en pendjabi, seuil à 3
Graphe représentant le pôle "crime d'honneur" en penjabi et ses cooccurrents les plus fréquents./ "ਅਣਖ ਖਾਤਰ ਕਤਲ" ਦੇ ਨਮੂਨਿਆਂ ਦਾ ਗ੍ਰਾਫ
liste des cooccurrents les plus fréquents en pendjabi
Liste des cooccurrents les plus fréquents en pendjabi avec "crime d'honneur". Un seuil abaissé à 3 permet de trouver des cooccurrents plus intéressants pour l'analyse.

Ce corpus est plus réduit que les deux précédents car le pendjabi, bien que parlé par un nombre conséquent de locuteurs à travers le monde, n'est pas très bien doté en matière numérique. Un premier graphe avec un seuil de fréquence de cooccurrence à 5 n'a pas permis de trouver des résultats analysables : les trois mots gravitant autour du pôle étaient "individus", "faire", "sujet" (cf graphe). Il a donc fallu abaisser le seuil à 3 pour trouver des cooccurents, toutefois à des fréquences très faibles (entre 4 et 2): ਮਾਮਲਾ "affaire" (4), ਰੋਕਣ "faire cesser" (4), ਮੁੱਦਾ "sujet"(3), ਫੈਸਲਾ "décision, jugement" (3), ਜ਼ਿੰਦਗੀ "vie" (3), ਪ੍ਰੇਮੀ "amants" (2),ਏਸ਼ਿਅਨ "Asian"(2) - d'un point de vue indien, ce mot désigne ce qui vient du sous-continent indien-, ਅਣਖ "honneur" (2), ਘਟਨਾਵਾਂ "incidents, cas" (2), ਬਿੱਲ "loi" (2). On retrouve ici un champ lexical juridique. Il est à noter que contrairement aux deux corpus précédents le champ lexical religieux n'est ici pas représenté. Le seul mot lié à une appartenance communautaire qui ressorte est "Asian", renvoyant à la communauté sud-asiatique vivant dans le sous-continent indien et à sa diaspora, sans indication religieuse, comme si dans le traitement pendjabi du terme le crime d'honneur était détaché du contexte religieux.

Conclusion

Il est délicat de tirer des conclusions générales de ce travail. D'une part, les corpus sont de tailles différentes, le choix des pages qui les constituent comporte nécessairement des biais (genre du site, couleur idéologique, etc...). On se contentera ici de noter quelques points communs et différences de traitement.
Autour des pôles des trois langues, on trouve le champ lexical juridique. Dans les corpus français et ourdou, le champ religieux, en particulier de l'islam, ressort également en cooccurrence avec le motif. Le corpus pendjabi quant à lui fait davantage ressortir la communauté sud-asiatique, bien que les fréquences de cooccurrence soient très faibles et peu différenciées entre les cooccurrents.

Retourner en haut de la page

flèche retour haut de page