La masculinité, Que sais-je?
Nous allons vous montrer la nouvelle vérité de la masculinité en français, en chinois et en coréen. Les resources que nous avons utilisé sont principalement les journaux principaux en chaque langue, et nous avons choisi les articles récents pour le traitement de ce sujet "masculinité".
Le monde est dans la révolution de genre. En posant la question sur la bicatégorisation et le patriarcat, la catégorie de genre aussi sont tombé dans l’ambiguïté. Ainsi, on a besoin actuellement de redéfinir les traites de genre, la masculinité et la féminité. En comparant la féminité qui avait beaucoup étudié dans le féminisme, la masculinité attire récemment l’attention du public.
On parle de la masculinité. Mais on ne sait pas exactement ce que c’est. Nous souhaitons trouver la nouvelle définition de masculinité en analysant des mots utilisés en vue de décrire la masculinité dans les journaux actuelles. Et en vue de savoir si sa définition est universelle ou localisée, nous avons choisir trois pays dont leurs langues dominants sont différents : la France-français, la Chine-chinois, et la Corée du sud-coréen.
Nous avons choisi deux journaux en ligne qui sont quotidiens, populaires, et majeur dans chaque pays. Car, nous pouvons juger que les informations qui se transmettent par le média sont accepté aux publics, autrement-dit s’accordent dans la société.
Nous avons essayé de trouver deux journaux majeurs, un droit et un gauche, pour protéger la neutralité de corpus. Néanmoins, en raison des conditions variées de fournir gratuitement l’article, on ne pouvais pas garder rigidement cette condition. Ainsi, nous avons choisir les articles dans des journaux populaires et majeurs.
Corpus coréen
Corpus chinois
Corpus français
français
Le français est une langue flexionnelle. La commande d'egrep avec +w reconnait l'espace et le symbole de phrase qui se trouve entre deux mots français - par exemple, "l'importantce", "jusqu'à". Donc, pour le cropus en français, nous n'avons pas rencontré le problème de segmentation.
chinois
Le chinois est une langue isolante. Et on dit que le caractère chinois se diffère beaucoup de caractère français. Chaque caractère chinois peut se combiner avec un autre caractère, et son sens est décidé normalement par cette combinaison. Ainsi, est impossible de segmenter les mots par les punctuations. Heureusement, il existe déjà des outil pour faire la segmentation en chinois. Donc, nous avons utiliser l'outil JIEBA pour réaliser la segmentation en chinois, et voici le lien d'un blog que nous avons écrit pour expliquer le processus, allez-y voir. Blog de segmentation en chinois.
coréen
Le coréen est une langue agglutinante. Une phrase simple comme 그녀는 아름다웠다(Elle était belle) est ségmenté d'abord par l'espace entre des syntagmes. "그녀는" est segmenté comme 그녀(elle) et 는(particul de sujet). "아름다웠다" est segmenté comme 아름다(belle) - racine d'ajective -, 웠 - suffixe de prédicat qui signifit le passé, 다 - suffixe de prédicat final. De plus, la racine de prédicat n'est pas fixé, mais varié. Étant cela, la ségmentation en coréen est une domaine très dévelopée et polémique. Nous avons exclue les suffixes et les particules de sujet, objet, etc manuellement. Cependant, nous avons eu difficultés de collecter la fréquence de prédicat à cause des racines variées que nous ne pouvons pas récuperer avec des lemmes.
Difficulté de trouver l'encodage correct
Il y a des pages qui ne spécifie pas son encodage dans l'information de tête. L'encodage est marqué par "charset", mais il risque d'avoir plusieurs "charset" à cause de l'autre lien qui précise son encodage en vue de connecter. Mais en général, l'encodage de page est écrit en première partie. Donc, nous avons décidé de choisir le premier dans la ligne avec "charset".
Encodage de la page qui n'est pas UTF-8
Les pages web en chinois sont très souvent écrit en GBK et GB2312. Et nous avons utilisé la commande "iconv" pour transmettre l'encodage en utf-8. Et les détails de notre travail sont notés dans notre blog, vous pouvez y aller voir. Blog concernant l'encodage.
Problème de lynx
Le problème d'encoding en coréen s'est passé dans l'enregistrement. Pour enregistrer le texte dans la page en html en format de texte, la redirection vers UTF-8 était nécessaire. Mais la commande de lynx ne reconnait pas l'encode UTF-8 et n'enregistre pas en l'encode UTF-8. On l'indique comme une problème de coréen, car même si UTF-8 est une seule code système pour tous les caractères, lynx n'a créé cette problème qu'avec le fichier coréen. Donc, nous avons obligé d'utiliser la commande d'iconv.
Le corpus que nous avons téléchargé automatiquement pas le script bash a un problème : il y a trop de publications ! Dans le site de journal, il y a toujours des publicités et des titres des autres articles. Un lecteur peut distinguer le texte d’article et l’autre information, mais Un programme informatique les traite également comme un texte.
Donc, notre quantité de corpus, ni suffisamment grand pour suivre la distribution normale ni suffisamment petit pour le confirmer manuellement, souligne inversement l’information. Car, un site de journal expose en général la même publication et les mêmes titres des articles dans un jour.
En vue de résoudre ce problème, nous avons utilisé la fonction de segements répétés dans iTrameur. La fonction de segments Répétés nous rend une série de lexiques répétés. En fait, dans cette quantité de corpus – 50 textes à chaque langue -, il est très rare que la même série de lexiques est répétés sauf un syntagme avec une lexique grammaticale. Ainsi, une série de lexiques répétés nous rend la liste de l’information qui n’est pas dans le texte d’article.
Le tableau en français
Le tableau en chinois
Le tableau en coréen
Le nuagess des mots en français
Le nuage des mots en chinois
Le nuage des mots en coréen
Nous avons reçu la liste de vocabulaires, par la fonction de dictionnaire dans iTrameur, et le téléchargé en format de tableau. Nous avons partagé ce liste avec la traduction automatique de google en vue de vous donner la chance de l'interpréter vous-même.
La liste français
La liste chinois
Le liste coréen
Quel est la masculinité?
Mis en commun
Nous avons choisi deux façons différents pour l’analyse.
1) utiliser l’iTrameur en diminuant le traitement manuelle. Le réseau de concurrent nous rend un résultat très objectif sans intervention.
2) utiliser maximum le traitement manuel. La liste de segment répétés et le concurrence sont confirmés et éliminés par le jugement de rechercher.
Nous voulons savoir la différence de résultat de deux manières. Ainsi, le français est analysé par deux manières, le chinois par le premier et le coréen par le dernier. En conséquence, nous avons reçu le résultat mis en commun sur la “masculinité” de trois langues comme ci-sous.
En français
En analysant le corpus français avec la première façon, le mot « hommes » sont lié avec « femmes », « modernes », « jeunes », « implication » et etc.
Avec le deuxième façon, nous avons compté le contexte plus important, en concernant l’information inutile. Dans la fichier d’indexe, on a supprimé des articles et des propositions que n’apporte pas le sens lexical. Et dans le rang supérieur, nous avons trouvé : Macron, neutralisation, terroristes, entreprise, harcèlement, Inde, manifestation, citoyenneté, restreignant, indépendance, justice, Pologne. Ils sont tous présumables à interpréter comme la description de masculinité. Néanmoins, ils sont tous des lexiques qui s’appartiennent aux titres des articles exposés hors de texte : « une nouvelle loi restreigant l’indépendance de la justice se profile en Pologne », « Macron annonce la neutralisation de 33 terroristes au Mali », « France Télécom : des sanctions fermes contre le harcèlement d’entreprise ». On a immédiatement supprimé ces lexiques dans la liste de lexiques plus que 10%, car même s’ils sont possibles à utiliser dans le texte, leurs fréquences se surestiment.
Parmi les lexiques de 10% dans la liste de dictionnaire de iTrameur, nous avons choisi les mots lexicaux ci-dessous.
La concordance de ces lexiques nous permet de récupérer la définition de “masculinité”. Le mot qui décrit la masculinité - masculinité, masculin, homme etc - sont colloqués avec les lexiques ci-dessous.
En français, la masculinité est décrit par la doctrine de supériorité masculine. La nouvelle définition est discutée avec l’égalité et le coexistant en parlant trois issus particuliers : l’homosexualité, la violence sexuelle et le travail. L’homosexualité est mentionnée dans le sport qui est considéré comme une espace de l’homme. Il est probable que l’homosexualité affecte la nouvelle masculinité. De plus, le travail domestique et parental et la violence sexuelle et conjugales semblent être discutés avec l’aspect négatif de masculinité.
En chinois
Quand on parle de la masculinité en chinois, il y a plusieurs expressions qui la correspondent : 男子气概, 阳刚之气, 男人味. Nous avons utilisé le premier terme pour construire le corpus en chinois. Les raisons sont simple, "男子气概" est plutôt neutre, quand "男人味" peut être un peu narquois.
D'ailleurs, l'autre terme "阳刚之气" est une expression d'origine de la culture traditionnelle chinoise, le premier caractère "阳" est "Yang" de la philosophie Taoïsme, et le deuxième caractère contient le sens de ferme et honnête. Et il y a une autre expression dans la même construction pour exprimer la féminité, c'est "阴柔之气" qui contient le sens "Yin", doux et tendre. Donc, le terme "阳刚之气" possède aussi des sens qui peuvent influencer la neutralité de notre travail.
Le terme "男子气概" est composé de "homme" (男子) et "allure" (气概). Il exprime l'ensemble des caractéristiques masculines. Donc, en chinois, nous avons choisi ce terme. Ce qui est intéressant sur ce terme est qu'il y a aussi un mot en chinois pour exprimer la féminité (女子气概), mais il me semble que cette expression est beaucoup moins utilisée par rapport à la masculinité (男子气概). Pourtant, cette hypothèse reste à exploiter avec plus de données.
Dans le corpus chinois, le mot "masculin" est lié avec le maquiallage (化妆), l'allergie (气质), les soins de la peau (护肤品),le charme (魅力) et ect.
En coréen
Nous avons segmenté le coréen, mais le résultat n’est pas utile car les prédicats ne sont pas compréhensibles avec leurs racines et le mot visé “남성성” est aussi segmenté par deux lexiques “남성” et “성”. 남성성 est traité comme une mot composé malgré de son utilisation fréquent : “남성” signifie “le masculin” et “성”, “caractère”.
La compréhension du contexte était important, à cause de l’information inutile. En considérant seulement la fréquence dans le fichier index, nous avons eu interprété que la masculinité en coréen avait rapport avec trois groupes. En premier, la groupe de gouvernement : le parquet 검찰, l'Assemblée nationale 국회, le département d'éducation 교육부, le président 대통령. Et le deuxième groupe est la violence sexuelle de "tournage illégale" : la victime 피해자, le procès 재판, le tournage 녹화, la photo 사진, la prison 징역. Le dernier groupe est en concernant la Corée du nord : le drapeau coréen 태극기, la défense nationale 국방, le réfugié coréen du nord 탈북. Mais le résultat était tout à fait différent en comptant le contexte et en excluant l’information inutile. Malgré de cette raison, nous avons essayé le corpus brut coréen pour analyser en détail.
Parmi les lexiques de 10% dans la liste de dictionnaire de iTrameur, nous avons choisi les mots lexicaux ci-dessous.
La concordance de ces lexiques nous permet de récupérer la définition de “masculinité”. La masculinité a colloqué avec les lexiques ci-dessous.
En coréen, la nouvelle définition de masculinité ne se trouve pas. Les adjectives décrivent plutôt l’ancienne masculinité avec une perspective critique, en mentionnant les plusieurs problèmes sociaux entre l’homme et la femme : le conflit de genre en ligne, la violence sexuelle par l’entourage illégale, le critique contre féminisme à Séoul université.
Améliorations possibles
Nous avons essayé deux manières différents. En concernant l’efficacité, la première manière sans traitement manuelle est favorable. Par contre, on pouvait analyser plus en détail avec le traitement manuel. Si le corpus était plus grand, le résultat sans traitement manuel serait plus intéressant. De plus, nous avons envie encore de trouver plus d'article selon les années en vue de comparer les deux corpus diachroniques. Nous pourrons voir le changement de la définition de la masculinité et l'attention du public sur ce problème.
Notre blog où le process s'est écrit
iTrameur : pour savoir comment utiliser, click
Nuage des mots utilisé pour le français et le chinois
Nuage des mots utilisé pour le coréen