Que se passe-t-il si on change de mot ?

Afin de tester notre programme nous avons essayé de choisir un autre mot que nous aurions aimé étudier aussi et nous lui avons fait passer l'épreuve du programme, du traitement des urls et du passage des fichiers de contexte à l'épreuve du Trameur.

Nous avons choisi le terme "patrimoine". Sans s'attarder sur le terme, nous présenterons tout de même rapidement une définition et un rapide examen des possibilités de traduction. Ce terme est particulier dans son sens de "patrimoine culturel", en France nous entendons souvent par là, ce qu'on appelle "les vieilles pierres" mais la gastronomie française semble aussi faire partie du patrimoine français, ainsi que la religion chrétienne très présente qui continue aujourd'hui à marquer le calendrier français. Mais le patrimoine a aussi un sens très matériel quand on parle du patrimoine financier, ou dans son sens immobilier. Notons que m'expression "avoir un patrimoine" peut aussi faire référence au patrimoine génétique d'un individu. Ainsi donc posons-nous (et posez-vous) la question : qu'est-ce que le patrimoine français ? Qu'incluez-vous dans le "patrimoine français" ? Quel est votre patrimoine ? Avez-vous un patrimoine ? Si oui, lequel et de quoi est-il constitué ?

Nous n'allons pas répondre à cette question mais nous allons plutôt laisser parler les machines et voir ce qu'elles peuvent nous dire du patrimoine français et quelles seront les différences avec le patrimoine espagnol, japonais et anglais.

Résultats pour "patrimoine"

Anglais

Ce qui ressort dans les contextes anglais, c'est d'abord et avant tout la ville d'Edinburgh, d'abord parce qu'elle est classée au patrimoine mondial de l'UNESCO et ensuite parce que des projets d'urbanisation semblent avoir mis en péril ce statut de patrimoine mondial. Plusieurs articles se réfèrent donc à ce danger pour la ville d'Edinburgh. Dans ce même esprit, le mot "Old" est très présent et notamment à travers les expressions "Old Town" (d'Edinburgh) et Old Royal High School (toujours d'Edinburgh).

On trouve aussi la ville de Londres qui se démarque, c'est en grande partie dû au projet de création de la réplique d'une arche de Palmyre, en hommage au site de cette oasis syrienne qui a été partiellement détruite en mai 2015.

Concordances Heritage

Français

Les contextes de "patrimoine" en français sont très partagés entre patrimoine financier et patrimoine culturel. On trouve presque autant de mots se rapportant à l'un et à l'autre. D'un côté on trouve l'idée de "déclarations du patrimoine" et des référence à "Marine" et Jean-Marie LE PEN soupçonnés d'avoir sous-évalués leur "patrimoine". D'un autre côté, le nombre d'occurences se rapportant au patrimoine culturel, photographique ou artistique sont assez nombreuses.

On parle aussi de la culture populaire et de patrimoine français dans des contextes très divers, du nouveau statut de France 3 (qui cherche à se rapprocher des français à travers ce thème) à l'héritage Miterrandien avant tout culturel et auquel Jack Lang dédie un livre. Notons finalement le mot "antan" qui a retenu notre attention et qui met en avant le fait que le patrimoine vient du passé.

cooc patrimoine

Espagnol

Quelques occurences renvoient au besoin de protection ("proteccion") des sites faisant partie du patrimoine mondial ou national. L'idée de patrimoine fiscal est aussi présente ("fiscales") mais moins qu'en français par exemple.

Enfin plusieurs articles traitent de la Colombie, du président Juan Manual Santos ("Santos" est le mot qui revient) qui insiste sur le statut de "patrimoine de l'humanité" ("humanidad") du contenu du galion espagnol San José, une épave disparue depuis 1708 qui serait remplie d'or et de bijoux et que le gouvernement colombien dit avoir retrouvée. Le "reforestaccion" est aussi un thème traité dans le cadre d'un problème de conservation d'un site témoin d'une bataille dont le terrain a été dévasté par un incendie, le reboisement de ce terrain cause la disparition de certains vestiges.

cooc patrimonio

Japonais

Les résultats en japonais sont moins probants. Nous retrouvons la notion de monde/mondial (世界) et le nom d'Okinawa (沖縄), une île du Japon qui abrite plusieurs sites classés au patrimoine mondiale de l'UNESCO. Il est intéressant de se pencher sur la mise en évidence de la Chine : 中国. Serait-une erreur dû au non nettoyage des contextes ? Et il semblerait en effet que dans beaucoup de cas, les liens japonais sont en fait très mal nettoyés et les contextes assez peu fiables, beaucoup font ressortir les annonces du jour ou les articles "à la une" et ne font en fait pas partie du corps de l'article. D'un point de vue technique, c'est un des points qu'il faudrait vraiment travailler pour rendre notre programme encore plus performant. De même le traitement lexicométrique des données japonaises a posé des problèmes au niveau de la segmentation.

Bilan

Ce sont donc deux axes qui se distinguent de ces résultats, d'abord le sens culturel, traditionnel de "patrimoine" qui renvoie à l'héritage culturel, religieux et insiste sur le caractère précieux de ce qu'il reste des civilisations passées, l'idée de protection est ressortie et on ne peut passer sous silence l'honneur qui ressort du fait d'avoir un site classé au patrimoine mondial de l'Unesco pour n'importe quel pays. D'un autre côté, le sens de patrimoine financier, monétaire est présent dans toutes les langues et est vraisemblablement tout aussi employé que son autre sens.

Ainsi le programme mis au point en cours a permis à partir de 50 URLs dans 4 langues de mener une analyse et montre les possibilités d'utilisations (et d'améliorations) de ce qui a été réalisé. Le but ici n'était pas de faire une analyse des résultats mais bien de montrer qu'il est possible d'obtenir des résultats à partir du programme sans avoir besoin de nettoyer ni de retoucher au script déjà écrit et avec peu de nettoyage préalable des fichiers globaux obtenus (ce qui explique la présence par exemple de David Bowie dans les mots les plus importants, son décès dans les jours de nos recherches a influencé les résultats). Et les résultats sont en effet utilisables et mènent à une réflexion intéresante sur le mot choisi. Notre programme est en téléchargement gratuit sur cette page si vous voulez vous y essayer.

tagcloug anglaisTagclound Françaistagcloud espagnoltagcloud japonais