• Accueil
  • Scripts
  • Tableaux
  • Nuages
  • Corpus
  • Analyse

Nous sommes trois étudiantes en Master 1 Traitement Automatique des Langues, Daria O (Paris III), Laurianne D (Paris X) et Sophie R (Inalco).

Nous avons choisi de travailler sur le thème de l'enlèvement d'enfant.

En France, ce phénomène n'est pas pas rare, chaque année on compte des milliers d'enfants disparus.
Mais ce fait récurrent n'est pas spécifique à notre pays et c'est pourquoi nous allons comparer notre situation avec celle de deux autres pays : le Japon et la Roumanie.
Nous nous interrogerons également sur la nature et le contexte de ce phénomène, certains pays sont-ils plus touchés que d'autres ? La mise en garde est-elle la même ? Les médias en parlent-ils de la même façon ? Pour cela, nous focaliserons nos recherches à travers les occurrences des mots "Enlèvement" et "Enfant" dans trois langues : le français, le japonais et le roumain.


Notre blog de travail

Script pour le Français

Script pour le Japonais

Script pour le Roumain

Tableau d'URLs pour le Français

Tableau d'URLs pour le Japonais

Tableau d'URLs pour le Roumain

Nuage de mots du Français

Contextes :

Dumps :

Nuages de mots du Japonais

Contextes :

Dumps :

Nuage de mots du Roumain

Contextes :

Dumps :

Français

Contexte

Dump

Japonais

Contexte

Dump

Roumain

Contexte

Dump

En France, nous pensions trouver beaucoup d’articles de faits divers. Toutefois, les premières URLs trouvées au sein de notre corpus français nous ont permis de découvrir que le sous-thème lié à l’enlèvement d’enfant qui revenait le plus fréquemment était l’enlèvement parental. Ainsi, la majorité de nos liens français que nous avons sélectionnés évoquent le sujet de l’enlèvement parental. Dans une moindre mesure, ils décrivent des situations diverses d’enlèvement d’enfants et des rumeurs urbaines qui naissent de ces faits divers.

Réaliser des nuages de mots ainsi qu'une analyse textométrique nous a permis d'approfondir chaque corpus. Concernant la partie française, les nuages de mots ont mis en lumière beaucoup de mots grammaticaux tels que de, le, du, ou ... que nous avons alors décidé d'écarter pour voir si nous observions une différence notoire. Ce nouveau nuage trié permet de mettre en avant des lemmes intéressants pour notre analyse, tels que enfants, enlèvement, disparition/disparu, parents, parental, garde, droit, procédure, visite, convention, pays, père et mère.

Une analyse des fichiers textuels dumps a permis d'élargir davantage notre étude de corpus. De ce fait, les mots enfant et enlèvement sont moins mis en avant mais restent présents dans ce nouveau nuage. D'ailleurs, nous retrouvons beaucoup de similitudes avec notre étude contextuelle. Toutefois, ce nuage semble davantage faire ressortir un vocabulaire juridique avec des termes tels que : l'autorité, justice, Convention, pays, judiciaire, international, police, article, droits.

Nous allons maintenant voir si notre analyse textométrique confirmera ou non nos premières hypothèses.
Cette nouvelle étude est réalisée à partir d'itrameur, un logiciel en ligne dans lequel nous n’avons qu’à copier coller notre fichier texte .txt et l’analyse peut débuter.Toutefois, nous avons d'abord dû effectuer un petit nettoyage de corpus ainsi qu'une suppression des majuscules qui pouvaient perturber notre étude textométrique.
D'abord, nous observons une fréquence élevée des trois termes qui se démarquaient déjà dans nos nuages de mots : enfant, enlèvement et parents. Jusqu'ici, ce logiciel ne nous apprend rien de nouveau que ce que nous avaient déjà révélé nos nuages de mots - si ce n'est des chiffres précis. Ainsi, cette analyse via itrameur va nous apporter de nouveaux éléments concernant les contextes phrastiques de nos deux termes de recherche : enlèvement et enfant. L'analyse des cooccurrents nous a notamment révélé l'importance du segment enlèvement parental ainsi que autre parent également intéressant à retenir. Le principal cooccurent d'enlèvement est parental puis viennent d'autres termes comme tentatives, prévenir, alerte, cas, international et plaintes. Il pourrait être surprenant de ne pas retrouver le terme enfant dans les cooccurrents d'enlèvement mais cela est simplement dû au fait que les deux lemmees sont séparés par l'élément gramatical d'. Concernant les cooccurrents du terme enfant, les plus massifs semblent être les éléments « l » et « d » . Etant donné que ce sont des mots grammaticaux (déterminants définis et indéfinis) cela nous intéresse peu. En revanche, les mots lexicaux tels que enlevé, disparu, mineur, votre et localiser sont plus intéressants à analyser.



De manière générale, nous retrouvons à travers nos dernière analyses sur les URLs françaises les mêmes termes dominants que dans les nuages de mots : enfant, enlèvement, parents-al. Cela n'est pas surprenant car nous avons analysé un corpus rassemblé autour de deux termes : enlèvement et enfants.
Toutefois, l'analyse textuelle qui met en lumière les contextes phrastiques a pu confirmer nos hyphothèses. L'enlèvement parental est bien le sujet qui revient le plus au sein du thème « Enlèvement d'enfant ». De ce fait, il n'est pas surprenant de retrouver les termes : parents, garde, père, mère, visite . En effet, de plus en plus de cas d'enlèvements sont liés aux cas de divorces et de refus de garde partagée. Nous avons également relevé des termes tels que enlevé, disparu, cas, mineur et tentatives qui sont assez attendus dans ce genre de corpus. Nous pouvons supposer que ces derniers sont issus des articles des journaux parlant de faits divers d'enlèvements. Viennent ensuite des mots comme prévenir, rappel et alerte que nous pouvons suppposer davantage liés aux liens URLs parlant de dispositifs d'alertes enlèvement. Par ailleurs, les lemmes : international, France, plainte, justice, procédure, police et convention nous évoquent des textes de lois et autres dispositifs mis en place face aux situations d'enlèvements d'enfants. Nous avons aussi trouvé des termes relativement inattendus comme magasin qui sont probablement liés à des faits divers de journaux. Enfin, nous pouvons relever des termes isolés tels que votre, si, trouve ou localiser que nous supposons être issus d'articles type forums ou autres associations d'entraide.

Les prémices de nos hypothèses sur le français sont donc confirmées et nous retrouvons bien des termes liés aux types d'URLs sélectionnées. Les différents sujets abordés autour de l'enlèvement d'enfant sont bien en grande majorité liés à l'enlèvement parental : faits divers, dispositifs de prévention mais aussi comment réagir et se battre face à ce phénomène.

En ce qui concerne le japonais, notre hypothèse de départ était de trouver surtout de la prévention, car nous savons que cela est très répandu au Japon, beaucoup de jeunes enfants y sont sensibilisés. Nous avions supposé que les cas d'enlèvements parentaux étant tabous, et seraient moins présents dans les résultats de recherche. En effet, le Japon ne respecte pas la convention de la Haye qu'il a pourtant signé en 2014. Pourtant, les mots garde parentale et père font partie des plus fréquents en co-occurrence avec enlèvement, ce qui a été mis en évidence par une analyse textométrique. De plus, la garde partagée est très peu répandue dans le pays. Nous avons également trouvé des mots appartenant au vocabulaire du crime et de la justice, ce qui n'est pas étonnant.

Garde parentale, incident, Japon, police, et père sont des co-occurrents du mot enlèvement, c'est donc bien que le problème des enlèvements parentaux au Japon ne sont pas si tabous que cela et sont même plus discutés que les cas d'enlèvements criminels.

Sur le premier nuage (contextes), on voit au centre en gros enfant et plus haut en gros également enlèvement. On peut relever les mots sécurité 安全, Chine 中国, photo 写真, problème 問題, homme 男性, père 父親, Japon 日本, fils 息子, garde parentale 親権, danger 危険, femme 女性, traité 条約 (dans le sens convention), prévention 防犯, protéger 保護, crime 犯罪, cas ケース (dans les affaires judiciaires), police 警察, et japonais 日本人 (personne japonaise). Sur le second nuage (dumps), les mots les plus fréquents sont la négation et enfant, avec également enlèvement 誘拐, et des formules de fin de phrase. Si l’on regarde les autres mots en plus petit, on peut relever d’intéressant : dommages (subis par une victime) 被害, police 警察, crime 犯罪, Japon 日本, photo 写真, Chine 中国, soutien 支援, sécurité 安全, homme 男性. Ainsi, comme évoqué dans notre hypothèse, il semble tout de même y avoir de la prévention (danger, prévention, protéger, sécurité), mais aussi des choses à propos de la garde parentale, alors que je ne pensais pas en trouver (père, fils, garde parentale).

Au Japon, on voit donc cette volonté des citoyens de faire parler des cas d'enlèvement parental, et cela pour contrer l'inaction du gouvernment. J'avais évoqué notamment le non-respect de la Convention de la Haye, et en effet, lorsque l'on cherche les co-occurrents de 条約 (traité / convention), voilà ce que l'on trouve :

Le premier co-occurrent de convention est La Haye. Cela montre une volonté des japonais de faire parler de ce problème au Japon et en quelque sorte de dénoncer la position de leur gouvernement.

Dans les co-occurrents de enlèvement nous trouvons délinquant et tentative, si l'on regroupe cela avec les nombreux mots liés au vocabulaire de l'enquête, la police et le crime relevés dans les nuages de mots, on comprend que les cas d'enlèvements criminels sont eux aussi discutés.


Nos hypothèses pour le roumain étaient que le terme apparaît notamment dans les faits divers, et qu'on devrait aussi retrouver le dispositive alerte enlèvement. L'enlèvement international, aussi appelé rapt parental, était aussi attendu.

Les mots qui prédominent dans les nuages de mots (cf. l'onglet "Nuages" du site) sont bien évidemment le lemme enfant (copil, copii, copilului), enlèvement (rapire, răpire) et enlevé (răpit).
Les nuages de mots ont mis en avant le mot alerte (alerta, alertă), directement relié au dispositif. Mais aussi international (internationala) et mineur (minor), qu'on peut relier au rapt parental. Concernant les faits divers, l'apparition de journal (ziar), informations (stiri) ou encore articles (articol) nous mettent sur la piste.
On retrouve aussi des mots comme danger (pericol), police (poliţia) ou délit (delict), on comprend sans soucis le lien avec notre sujet.

L'analyse sur i-trameur, plus poussée, a mis en avant d'autres termes encore.

En plus de termes déjà présents sur les nuages de mots, on a les termes de tentative (tentativă) et disparition (dispariţie). Ainsi que système (sistemului) et mécanisme (mecanism, mecanismului) qui sont des synonymes de dispositif pour parler du dispositif alerte enlèvement. On évoque d'ailleurs l'efficacité de celui-ci, avec l'utilisation de amélioration (îmbunătăţire) et fonctionnement (funcţionarea)
Apparaît aussi Daria, le prénom d'une fille qui a été enlevée, et fillette (fetiţă), qui apparaît notamment dans les articles à propos d'elle.

Cette analyse textométrique a confirmé toutes les hyphothèses. Les mots les plus fréquents dans le corpus, ainsi que ceux en rapport avec notre terme de recherche, sont en lien avec le dispositif d'alerte enlèvement, mais aussi avec les faits divers et le rapt parental. Aucune autre thématique liée à l'enlèvement d'enfant n'est ressortie dans le corpus en roumain.


Dans les trois langues que nous avons étudiées, les résultats semblent finalement assez similaires.
Nous ne pensions pas retrouver les mêmes rapports à l'enlèvement d'enfant dans ces pays. En effet, nous pensions que la France n'évoquerait que des faits divers tout comme la Roumanie tandis que le Japon serait plus enclin à présenter des moyens de lutte et de prévention face à ce phénomène.
Pourtant, nos analyses nous montrent que le Japon, tout comme la France et la Roumanie évoquent en majorité le rapt parental lorsqu'on aborde le sujet de l'enlèvement d'enfant. Bien entendu, les dispositifs d'alertes et autres moyens de prévention, intrinsèquement liés à ce phénomènes, sont des thématiques que nous avons retrouvées dans chaque corpus.
Finalement, les faits divers et affaires criminelles ne sont pas si fréquents et les sites webs recueillis en parlent assez peu en comparaison des autres thèmes.