Je ne m'intéresserais ici qu'à la reconnaissance vocale de mots isolés, cette étude étant déjà suffissamment complexe.
La reconaissance vocale concerne principalement la transcription d'un signal vocale en une suite de mots. Cette reconnaissance se fait à l'aide d'un système. Avant de pouvoir commencer l'analyse vocale, il faut préalablement intégrer un système vocal, c'est-à-dire que la voix de l'interlocuteur doit être capté par un microphone. Le signal vocal ainsi obtenu est ensuite numérisé.

1. Structure générale des systèmes.

La structure générale d'un système peut être décomposé en quatre modules:

2.Développement d'un système de reconnaissance de la parole.

Pour le développement d'un système de reconnaissance, les principaux composants sont: a) La représentation lexicale.
Le dictionnaire de prononciation constitue le lien entre la modélisation acoustique et la modélisation linguistique. Le développement de ce dictionnaire necessite d'une part la définition et la selection des éléments et d'autre part la description de chaque entrée lexicale au moyen d'unités acoustiques élémentaires.
La plupart des systèmes de reconnaissance vocale utilise des méthode de Markov caché (MMC) pour la modélisation acoustique ou bien des modéles segmentaux.
Tous les systémes se servent du cadre des MMC pour combiner l'information linguistique et acoustique dans un seul réseau représentant le langage de l'application. Les modéles acoustiques doivent prendre en compte les différentes sources de variabilités qu'elles soient liées au contexte linguistique, au locuteur, à l'environnement acoustique ou à la prise de son.
Le niveau de performance du système est corrélé à la qualité et à la cohérence de la prononciation associées à chaque entrée lexicale. L'unité la plus souvent utilisée est le phonème.
Le jeu de phonème est spécifique à chaque langue, par exemple, il en faut 45 pour l'anglais, 48 pour l'allemand, 26 pour l'espagnol et 35 pour le français.


Les dictionnaires de prononciations sont le résultats de travaux d'experts. Pour réduire le taux d'erreur, lié à la mauvaise prononcaition, il faut autoriser des prononciations aléatoires au système.

b)Codage du signal vocal.
Pour la reconnaissance vocale, le signal vocal est échantillonné avec une fréquence puis le signal est codé pour réduire sa variabilité et réduire la quantité d'information à traiter.
L'analyse du message se fait en plusieurs étapes.
La première étape est la paramétrisation. Elle permet d'avoir une "empreinte" caractéristique du son sur laquelle on se penchera par la suite. Pour cette étape 1, il existe principalement trois méthodes.
La première est celle dite "spectrale". Elle est fondée sur la décomposition fréquentielle du signal. Cette décomposition se fait par la méthode de Fourier qui dit que tout son est la composition de plusieurs sinusoïdales simples. Grâce à cette méthode, on obtient les différentes fréquences qui composent ce signal et on a donc l'empreinte caractéristique du son.
La deuxième méthode est celle dite "d'identification". Elle est fondée sur une connaissance des mécanismes de production comme par exemple le conduit vocal.. Elle fournit une approximation de l'enveloppe du spectre du signal à l'instant d'analyse. On repère alors aisément les fréquences formantiques, c'est-à-dire les fréquences de résonance du conduit vocal. En effet, elles correspondent au maximum d'énergie dans le spectre. En répétant cette méthode plusieurs fois, on obtient l'empreinte du signal.
La dernière méthode est celle qui se fait par "codage vectoriel". Les signaux sont convertis en vecteurs.


Ensuite est effectué une comparaison de la série de vecteur avec les modèles que le système possède. Il existe un modèle pour chaque phonème.

L'étape suivante est le décodage acoustico-phonétique. Il consiste à décrire le signal acoustique de parole en termes d'unités linguistiques tels que les phonèmes, les syllabes, les mots. Le décodage a pour but de segmenter le signal en segments élémentaires. Existant en nombre limité, le phonème est l'unité la plus utilisée. Une fois la segmentation effectuée, l'identification des différents segments se fait en fonction de contraintes phonétiques, linguistiques...

Une fois toutes ses étapes réalisées, la reconnaissance en elle-même peut commencer.

3.Reconnaissance de mots isolés pour un système monolocuteur.

Le principe de la reconnaissance pour les mots isolés, est de marqué une pause de quelques dixièmes de seconde entre chaque mots prononcés pour faciliter la reconnaissance puisque qu'il n'existe aucun indicateur sur les frontières des phonèmes.

Il existe deux techniques de reconnaissance vocale:
Tout d'abord une approche globale, où l'entité à reconnaître sera le mot, puis une approche analytique où l'untité sera cette fois les phonèmes ou les syllabes. Dans le cas de la reconnaissance de mots isolés (avec un vocabulaire limité), c'est l'approche globale qui s'appllique le mieux. En effet, les images acoustiques des mots peuvent-être facilement isolées les unes des autres car tous les mots prononcés sont séparés par des silences.
Le fonctionnement de ce type de reconnaissance se décompose en deux phases: une phase d'apprentissage et une phase de reconnaissance , aussi appelé phase de test.

A La phase d'apprentissage: consiste à collecter une ou plusieurs prononciations d'énoncés produits par le locuteur, à l'occasione d'une ou plusieurs sessions d'enregistrements, séparées dans le temps les une des autres et correspondant si possible à des conditions variées (différents microphones, différents environnements,etc.)afin de couvrir au mieux les conditions réelles d'utilisation ultérieure. Le système analyse et modélise les caractéristiques du locuteur et stocke les paramétres du modéle ainsi que l'identité corresopndante dans une base de références vocales.

B.En phase de reconnaissance: le locuteur se présente devant le système et produit un énoncé Y. Le système procéde à l'analyse de ce message intercepté, par les méthodes vues précedement. Ensuite, la forme finale va être choisie par le système.
Cette phase comporte trois parties:


Dans la partie de l'identification, il s'agit en fait de la comparaison du signal vocal émis, avec les mots du dictionnaire, après qu'il ait été paramétré. Par le calcul d'un taux de similitude, le mot le plus ressemblant va être choisi.


Accueil Introduction Historique Application Logiciel Prix Liens