Recherche des usages du mot barrage sur l’Internet : une approche linguistique Le moteur de recherche Google trouve près de 6 millions de pages contenant le mot barrage, dont la moitié sont considérées comme « pages francophones ». Un tel corpus est inexploitable, car même un échantillonnage, par exemple en sélectionnant une série d’occurrences toutes les 100 000 pages, serait péniblement réalisable. Par ailleurs, une observation rapide permet de constater que la plus grande part des emplois du mot barrage sur l’Internet portent la désignation d’un ouvrage hydraulique, et non sur les autres sens. Il n’est pas surprenant à ce niveau de faire cette constatation si l’on considère que l’Internet correspond à une pratique à la fois écrite et contemporaine de la langue : les locuteurs d’Internet et les thèmes qu’ils y évoquent ne sont pas représentatifs des usages de la langue les plus variés, qu’ils soient écrits informatisés, non-informatisés ou plus généralement oraux. En somme la seule recherche par le mot barrage imposerait un travail de tri compliqué et laborieux, que nous allons essayer de rationaliser. Utilisation d’un dictionnaire de langue pour la formulation des requêtes Nous proposons d’essayer d’utiliser la glose métalinguistique d’un dictionnaire de langue – en l’espèce le Petit Robert – pour nous aider à formuler des requêtes plus sélectives. Ce faisant, nous pourrons tenter d’observer dans quelle mesure les usages relevés pour leur correspondance aux sous-entrées du dictionnaire présentent des propriétés supplémentaires que le programme que nous réalisons nous permettrait de repérer. La démarche ne vise pas à faire un relevé le plus exhaustif possible des usages comme le ferait le Trésor de la langue française, mais à rechercher les correspondances qui pourraient exister entre les « sens » d’un dictionnaire de langue, dont on fournit une copie de l’article ci-dessous, et les usages dans notre corpus. voir la définition du mot barrage définition Source : Le petit Robert, dictionnaire de la langue française, J. Rey-Debove & A. Rey (dir.), éd. Le Robert, Paris, 2003 Il apparaît que la distinction entre les sens 1 et 2 du Petit Robert porte entre l’action de barrer et l’objet barrage. On pourra donc retenir pour le sens 1 les requêtes “faire barrage”^^i et “tir de barrage”. On note la rencontre de cette dernière locution dans le domaine du sport, pour « tirs de football, de pétanque », etc., mais l’observation des usages montre qu’elle renvoie bien au sens sportif de « épreuve de barrage ». En revanche, l’emploi figuré de tir de barrage semble beaucoup plus important que le sens propre de l’action militaire^^ii. Pour le sens 2, “un barrage”^^iii fonctionne plus ou moins bien si l’on écarte les nombreuses occurrences pour « ouvrage hydraulique » et le titre Un Barrage contre le Pacifique. On y ajoute également les requêtes pour rue et route qui donnent de bons résultats, tandis que port ou pont appellent trop de noms propres composés de ces mots. La requête avec route appelle cependant beaucoup de résultats correspondants à des descriptions d’itinéraires. La requête “franchir un barrage” renvoie paradoxalement à de nombreux usages du sens « ouvrage hydraulique » (il s’agit de poissons ou de bateaux, etc). Le sens 3 est abstrait et il est donc particulièrement difficile d’extraire ses emplois. Il s’oppose à l’objet barrage du sens 2 et à l’action de faire barrage du sens 1. La recherche des mots difficulté ou opposition renvoie à des documents divers et l’usage dominant du barrage hydraulique apparaît encore surreprésenté (opposition à la construction, etc.). C’est en combinant la requête avec veto et difficulté que l’on parvient le mieux à spécialiser les usages, mais il y a encore ambiguïté avec l’emploi figuratif du sens 1 puisqu’on retrouve souvent la locution “faire barrage” : il faut encore spécialiser la requête pour “un barrage”. Le sens 4 est le plus aisé à repérer, grâce aux requêtes “match de barrage” et “rencontre de barrage”. On peut même faire la requête barrage sport -match -rencontre^^iv pour observer les usages de ce sens qui ne comprendraient pas ces locutions en match et rencontre. Le sens 5 correspond donc à la plupart des usages du mot barrage sur la Toile^^v. Pour simplifier, nous rechercherons barrage eau et “barrage hydraulique”. Nous aurons donc in fine écarté d’une part les usages particuliers de barrage en psychiatrie et en psychologie proposés par Le Robert, de l’autre les usages pour barrage de guitare évoqués par J. Véronis, tous trop spécialisés. L’échantillonnage des résultats se fera par sélection des premières occurrences qui semblent correspondre au sens recherché, trouvées dans la première, la 10e et la 50^e page de résultats de Google, en ventilant la recherche. On retiendra 10 usages par sens : les volumes d’usage ne sont donc pas respectés mais nous avons expliqué les problèmes qu’il y aurait à étalonner le corpus Internet. On donne, à titre indicatif, le nombre de résultats trouvés par Google dans les pages francophones pour chaque requête et le nombre d’urls que l’on retient, en procédant dans l’ordre et en répartissant les requêtes, de manière à obtenir un panel représentatif de la diversité des usages. Les requètes utilisées pour établir le corpus Sens 1 : action de barrer Requête : “faire barrage” (83 700 pages), 5 urls Requête : “tir de barrage” (19 700 pages), 5 urls Sens 2 : ce qui barre Requête : “un barrage” (287 000 pages), 2 urls Requête : barrage rue (483 000 pages), 4 urls Requête : barrage route (737 000 pages), 4 urls Sens 3 : obstacle, difficulté – opposition Requête : “un barrage” veto difficulté (306 pages), 10 urls Sens 4 : match de barrage Requête : “match de barrage” (24 300 pages), 3 urls Requête : “rencontre de barrage” (296 pages), 3 urls Requête : barrage sport -match -rencontre (129 000 pages), 4 urls Sens 5 : ouvrage hydraulique Requête : barrage eau (1 490 000 pages), 5 urls Requête : “barrage hydraulique” (170 000 pages), 5 urls Voir la liste des urls Questions pratiques lors de la mise en œuvre Pour correspondre à la démarche de recherche de correspondances entre sens et usages, nous ne ferons figurer dans le tableau des résultats que les intitulés de sens et non pas les requêtes. Les pages sont choisies méthodiquement dans l’ordre des premières trouvées dans la requête dont l’usage correspond au sens recherché, mais il faut ensuite éliminer celles qui dont on ne peut extraire le contenu et les remplacer, soit : * les pages qui ne sont plus d’actualité d’un jour sur l’autre (sites de presse, sites disparus) * les pages au format Pdf, même avec l’option « format html » de Google, ne peuvent pas être dumpées. C’est donc après essais successifs que l’on peut constituer une liste de 50 urls, réparties uniformément pour les 5 sens retenus. Analyse des résultats et développement possible La première lecture du tableau de résultats fait toujours paraître l’importante hétérogénéité du corpus. Les formats de fichiers (Pdf, html, etc.), leur taille, leur genre sont très différents au point qu’il est difficile d’en comparer les contenus. Les requêtes pour l’emploi du mot barrage comme épreuve sportive (sens 4) renvoient souvent à des pages pleines de bruit, faites de tableaux de résultats sportifs avec peu ou pas de phrases. On peut cependant faire quelques remarques concernant l’analyse qualitative des résultats. Les emplois pour « action de barrer » (sens 1) correspondent le plus souvent à des contextes de débats politiques. Les emplois pour « ce qui barre » (sens 2) sont plus diversifiés et la différenciation avec le sens 5 pour « ouvrage hydraulique » est souvent difficile à systématiser. Le sens abstrait « obstacle, difficulté » (sens 3) correspond largement à des textes d’ordre politique, juridiques, institutionnels. Il renvoie souvent à un usage métaphorique et à ce que Jackobson appelle des synapses : barrage de critiques, barrage de passivité, barrage de propagande. Pour le sens de « ouvrage hydraulique », on constate que les pages contiennent souvent beaucoup de répétitions du mot ce qui explique la taille des cases contenant les contextes. Il apparaît qu’un développement en terme d’analyse quantitative serait possible en recherchant les cooccurrences particulières aux emplois dans le corpus correspondant à chaque sens. L’opération demanderait cependant une automatisation supplémentaire qui sort du cadre de ce projet. Elle permettrait pourtant d’évaluer la correspondance entre les sens d’un dictionnaire de langue et les cooccurrences contextuelles. Notes: i On utilise la commande guillemets de Google qui impose au moteur la recherche de la combinaison exacte des termes compris entre les guillemets. C’est-à-dire qu’ici, seules les occurrences de faire barrage seront prises en compte, puisqu’il nous est impossible de faire une requête sur le lemme du verbe faire et ses conjugaisons. ii On aurait pu étendre ici l’aphorisme de Clausewitz qui voyait dans la guerre la continuation de la politique par d’autres moyens : il n’est pas rare de pouvoir envisager le sport comme une continuation de la guerre par d’autres moyens. Pourtant, il est difficile en pratique de différencier le sens de tirs de barrage de celui de trou de barrage en golf et tous les usages repérés renvoient au sens 4. L’aphorisme marche bien dans sa formulation initiale et sa formulation renversée : le lien entre le sens propre militaire de tir de barrage et son sens figuré en politique est établit. iii Le mot-outil un est considéré par Google dans cette requête puisqu’il y a des guillemets. Sans cela, il aurait fallu le faire précéder du signe +. iv Le signe - précède un mot dont on requiert qu’il soit absent des pages recherchées. v Mais ce ne sera pas nécessairement le cas dans tous les corpus : par exemple, une recherche dans les archives du journal Le Monde montre une plus grande variété des thèmes relatifs à cet usage.