Comprendre la reconnaissance vocale

Essayez Notre Instrument Pour Éliminer Les Problèmes





Imaginez-vous assis détendu sur le canapé et en train de commander votre ordinateur, votre ordinateur portable ou votre téléphone portable pour effectuer des tâches simples comme taper une lettre ou exécuter quelques commandes. Est-il possible?

Bien sûr, c’est là que la reconnaissance vocale entre en scène.




Selon la définition, c'est le processus de reconnaissance de la parole humaine et de le décoder sous forme de texte.

Principe

Le principe de base de reconnaissance vocale implique le fait que la parole ou les mots prononcés par tout être humain provoquent des vibrations dans l'air, appelées ondes sonores. Ces ondes continues ou analogiques sont numérisées et traitées puis décodées en mots appropriés puis en phrases appropriées.



reconnaissance vocale

Composants d'un système de reconnaissance vocale

Alors, en quoi consiste un système de reconnaissance vocale de base?

Composants d

  • Un appareil de capture vocale : Il se compose d'un microphone, qui convertit les signaux des ondes sonores en signaux électriques et d'un convertisseur analogique-numérique qui échantillonne et numérise les signaux analogiques pour obtenir les données discrètes que l'ordinateur peut comprendre.
  • Un module de signal numérique ou un processeur : Il effectue un traitement sur le signal vocal brut comme la conversion du domaine fréquentiel, ne restaurant que les informations requises, etc.
  • Stockage de signaux prétraités : Le discours prétraité est stocké dans la mémoire pour effectuer d'autres tâches de reconnaissance vocale.
  • Modèles de discours de référence : L'ordinateur ou le système se compose de modèles de parole prédéfinis ou de modèles déjà stockés dans la mémoire, à utiliser comme référence pour la correspondance.
  • Algorithme de correspondance de modèle : Le signal de parole inconnu est comparé au modèle de parole de référence pour déterminer les mots réels ou le modèle de mots.
Fonctionnement du système

Voyons maintenant comment tout le système fonctionne réellement.


Fonctionnement du système

  • Une parole peut être vue comme une forme d'onde acoustique, c'est-à-dire un signal porteur d'informations de message. Un être humain normal avec la vitesse de mouvement limitée de ses articulateurs (organes de la parole) peut produire de la parole à un rythme moyen de 10 sons par seconde. Le débit d'information moyen est d'environ 50 à 60 bits / seconde. Cela signifie en fait que seulement 50 bits / seconde d'informations sont nécessaires dans le signal vocal. Cette forme d'onde acoustique est convertie en signaux électriques analogiques par le microphone. Le convertisseur analogique-numérique convertit ce signal analogique en échantillons numériques en prenant des mesures précises de l'onde à intervalles discrets.
  • Le signal numérisé consiste en un flux de signaux périodiques échantillonnés à 16000 fois par seconde et ne convient pas pour effectuer reconnaissance de la parole processus car le motif ne peut pas être facilement localisé. Pour extraire les informations réelles, le signal dans le domaine temporel est converti en signal dans le domaine fréquentiel. Ceci est fait par le processeur de signal numérique en utilisant la technique FFT. Dans le signal numérique, le composant après chaque 1/100ed'une seconde est analysée et le spectre de fréquences pour chacun de ces composants est calculé. En d'autres termes, le signal numérisé est segmenté en petites parties d'amplitudes de fréquence.
  • Chaque segment ou le graphique de fréquence représente les différents sons émis par les êtres humains. L'ordinateur effectue la correspondance des segments inconnus avec la phonétique stockée de la langue particulière. Cette correspondance de motifs se fait de 3 manières:

Utilisation d'une approche phonétique acoustique : Dans l'approche phonétique acoustique, le modèle de Markov caché est généralement utilisé. Ce modèle développe un modèle de probabilité non déterministe pour la reconnaissance vocale. Ce modèle se compose de deux variables - les états cachés des phonèmes stockés dans la mémoire de l'ordinateur et le segment de fréquence visible du signal numérique. Chaque phonème a sa propre probabilité et le segment est apparié avec le phonème selon la probabilité et les phonèmes appariés sont ensuite rassemblés pour former les mots corrects selon les règles de grammaire stockées de la langue.

Utiliser une approche de reconnaissance de formes : Dans l'approche de reconnaissance de formes, le système est formé avec un modèle de parole particulier pour n'importe quelle langue et le modèle de parole inconnu est comparé avec le modèle de parole de référence en déterminant la distance entre les signaux en utilisant une technique de déformation temporelle.

Utiliser l'intelligence artificielle : L'approche d'Intelligence Artificielle est basée sur l'utilisation de sources de connaissances de base telles que la connaissance des sons prononcés sur la base de mesures spectrales, la connaissance de mots significatifs et syntaxiques appropriés.

Facteurs dont dépend le système de reconnaissance vocale

Le système de reconnaissance vocale dépend des facteurs suivants:

  • Mots isolés : Il doit y avoir une pause entre les mots consécutifs prononcés car les mots continus peuvent se chevaucher, ce qui rend difficile pour le système de comprendre quand un mot commence ou se termine. Il doit donc y avoir un silence entre les mots consécutifs.
  • Haut-parleur unique : De nombreux orateurs qui essaient de donner une entrée vocale en même temps peuvent provoquer un chevauchement des signaux et des interruptions. La plupart des systèmes de reconnaissance vocale utilisés sont des systèmes dépendants du locuteur.
  • Taille du vocabulaire : Les langues avec un grand vocabulaire sont difficiles à considérer pour l'appariement de motifs que celles avec un petit vocabulaire car les chances d'avoir des mots ambigus sont moindres dans ces dernières.
Système de reconnaissance vocale sur Windows 7

Je voudrais recommander les étapes suivantes à toute personne utilisant Windows 7 pour le système de reconnaissance vocale

  • Ouvrez le Panneau de configuration depuis le menu Démarrer ou en cliquant sur l'icône.
  • Sélectionnez Facilité d'accès, puis cliquez sur Reconnaissance vocale.
  • Cliquez ensuite sur configurer le microphone et sélectionnez le microphone de bureau parmi les options disponibles.
  • Ensuite, suivez le didacticiel vocal et suivez les instructions données.
  • Après cela, entraînez votre ordinateur pour de meilleures options afin que l'ordinateur stocke un modèle défini de votre signal vocal. Pour ce faire, cliquez sur l’option «Entraînez votre ordinateur pour mieux vous comprendre», puis suivez les instructions.
  • Maintenant, démarrez l'icône de reconnaissance vocale et commencez à dicter votre discours à l'ordinateur. Vous pouvez également ajouter vos propres mots au dictionnaire informatique.
Systèmes de reconnaissance vocale pratiques: utilisation du HM2007

Un système pratique de reconnaissance vocale peut être construit à l'aide de l'IC de reconnaissance vocale HM2007 . Le HM2007 est un circuit intégré à 48 broches qui fournit une fonction de reconnaissance vocale. Il fonctionne en deux modes: mode manuel ou mode CPU. Dans les deux modes, le CI est d'abord entraîné pour reconnaître les mots par l'utilisateur prononçant chaque mot pour le numéro correspondant appuyé sur la touche. L'IC stocke chaque signal de mot dans l'emplacement de mémoire correspondant au mot. La sortie de données du circuit intégré est interfacée avec le microcontrôleur d'où elle est affichée sur l'écran LCD.

Systèmes de reconnaissance vocale pratiques

Normalement, nous utilisons le mode manuel pour le fonctionnement du HM2007.

  • Le HM2007 se compose d'une broche RDY qui est une broche basse active indiquant que l'IC est prêt à des fins de formation.
  • L'entrée vocale sera donnée via un microphone connecté à la broche MICIN de l'IC.
  • Le CI est interfacé avec un clavier qui est utilisé pour fournir une entrée numérique correspondant à chaque mot. Le CI fonctionne en deux fonctions - Effacer et Former. Lorsque la touche Train est enfoncée sur le clavier, le CI commence son processus d'apprentissage.
  • L’utilisateur appuie sur une touche numérique avant d’appuyer sur la touche de fonction «Train» et dit le mot souhaité au microphone.
  • L'IC envoie un signal haut à la broche ME (Memory Enable) qui est connectée à la broche ME correspondante de la SRAM. Le signal de données de 8 bits correspondant au nombre pressé est stocké dans la SRAM (RAM externe) via le bus externe.
  • Une fois l'entrée vocale détectée, la broche RDY est à l'état logique haut et le circuit intégré passe à l'état de reconnaissance, où il démarre le processus de reconnaissance.
  • Le résultat du processus est donné via le bus de données avec la broche DEN (Data Enable) en haut.
  • Les données 8 bits peuvent ensuite être transmises au microcontrôleur via un processeur d'interface série ou d'abord verrouillées à l'aide de l'IC de verrouillage 74HC573.
  • Le microcontrôleur est interfacé avec un écran LCD et est programmé de telle sorte que le mot correspondant s'affiche sur l'écran.

La seule précaution à prendre est de ne pas utiliser d'homonymes (mots au son similaire) et aussi de prendre soin de l'excitation de la voix.

Alors, c'est tout comment un système de reconnaissance vocale de base travaux. Toute autre contribution peut être ajoutée.

Crédit d'image

  • Système de reconnaissance vocale par Gstatique
  • Manipulation de la forme d'onde vocale par Dadisp

Composants du système de reconnaissance vocale par une introduction à la reconnaissance vocale et vocale - Richard D. Peacocke et Daryl H. Graf