Corpus

Comme pour les tableaux, vous pouvez consulter les corpus par langue séparement.

Pour chaque langue, deux corpus ont été constitués. Le premier corpus est un corpus dit "global" puisqu'il regroupe les fichiers dump segmentés et constitue des contextes généraux. Le deuxième corpus est quant à lui un corpus "zoomé" formé à partir des fichiers contextes (au format texte) qui présente des contextes réduits autour de notre recherche sur la "chanson française".

Les deux corpus de chaque langue ont été nettoyés afin de réduire le bruit au maximum lors des analyses linguistiques et les corpus français et allemands (globaux et zoomés) ont été mis entièrement en minuscules pour ne pas gêner la recherche de notre mot qui n'était pas orthographié de la même manière dans toutes les sources. Vous retrouverez ces étapes en détail sur notre blog.

Corpus chinois

Si vous souhaitez consulter les corpus chinois, cliquez : ICI

Corpus allemand

Si vous souhaitez consulter les corpus allemands, cliquez : ICI

Corpus français

Si vous souhaitez consulter les corpus français, cliquez : ICI