À l’ère ou les GAFA (Google, Amazon, Facebook, Apple) ont le monopole sur les nouvelles technologies et l’intelligence artificielle, de nouveaux procédés numériques voient le jour. L’objectif est de faciliter le quotidien des hommes. Ainsi, la reconnaissance vocale fait partie des procédés mis en place pour nous aider à gagner du temps sur certaines activités. Il s’agit d’un processus consistant à analyser la voix parlée de l’interlocuteur pour ensuite la transformer en requête informatique. D’ailleurs, de nombreux outils de reconnaissance automatique de la parole ont vu le jour ces dernières années.
Dans cet article, nous allons définir la reconnaissance vocale, ses caractéristiques et les avantages et limites qu’elle constitue pour l’homme.
Qu’est-ce que la reconnaissance vocale ?
Nous avons tous entendu parler des outils de reconnaissance vocale tels que Alexa d’Amazon, Siri d’Apple ou encore Google Assistant si bien qu’ils commencent aujourd’hui à se faire une place dans nos foyers et deviennent omniprésents dans notre quotidien. Cette technologie concerne l’analyse de la voix humaine afin de la traduire en demande informatique. En effet, la machine capte les fréquences sonores à l’aide d’un micro et procède à une traduction sous forme de texte. Ce procédé est d’ailleurs appelé speech-to-text. La seconde étape est l’intervention de l’intelligence artificielle et plus particulièrement du Deep Learning qui analysera les fichiers sonores. Cette phase correspond au Natural language understanding.
En combinant le speech-to-text et le natural language understanding on obtient la transformation de la voix en données qui après analyse apportera une réponse adéquate à la requête.
L’histoire de la reconnaissance vocal
Avant de s’attarder sur les caractéristiques de la reconnaissance vocale, un bond dans le temps est nécessaire pour comprendre ce concept. Le premier système de reconnaissance vocale a été créé en 1952 dans le laboratoire américain Bell. Ce dispositif était en mesure de reconnaître les chiffres prononcés par l’homme.
En 1962, la machine Shoebox est le premier dispositif d’assistance vocale. L’outil était en mesure de reconnaître plus d’une trentaine de mots. C’est William C. Dersch, chercheur chez IBM qui réussira à mettre en place l’outil Shoebox.
Durant les années 1970, l’assistance vocale a connu une importante exposition et les outils de reconnaissance vocale deviennent de plus en plus performants. Après les années 2000, la reconnaissance vocale et l’intelligence artificielle font leur arrivée dans les foyers. Autrefois réservés aux laboratoires et bureau d’études durant la phase d’expérimentation, elle fait aujourd’hui partie intégrante de notre quotidien.
Quelles sont les caractéristiques de la reconnaissance vocale ?
La technologie de la reconnaissance vocale combine trois modèles principaux : un modèle de langage, un modèle de prononciation et un modèle acoustico-phonétique. La combinaison de ses trois modèles permet le calcul de la probabilité la plus élevée de l’apparition d’une logique de mots grâce à un signal sonore. Toutefois, l’entraînement exige une grande base de données d’exemples vocaux étiquetés.
En ce qui concerne le mode de fonctionnement de la reconnaissance vocale, celle-ci se décline en trois étapes distinctes :
- L’analyse acoustique est chargée de découper le message vocal en vecteur acoustiques
- Le machine learning associe les différentes fréquences sonores à des mots
- L’analyse de la parole : cette étape combine les trois modèles de reconnaissance vocale afin d’identifier une suite de mots prononcés par le locuteur
Les principales applications de reconnaissance vocale
Aujourd’hui, les grandes entreprises se bousculent pour sortir la technologie de pointe en intelligence artificielle. Toutefois, la reconnaissance vocale s’est popularisée auprès des grandes enseignes, notamment les GAFA qui ont commercialisé différentes solutions de reconnaissance vocale notamment Alexa, Siri ou encore Google Assistant.
Hormis ces technologies, la reconnaissance vocale est un marché en pleine expansion avec des solutions performantes notamment pour les professionnels. En effet, les interfaces vocales professionnelles sont de plus en plus populaires puisqu’elles permettent de faciliter le travail des collaborateurs. Nous parlons ici d’un dispositif qui apporte plus de liberté à l’opérateur. Que ce soit avec des outils main-libres ou des technologies de commandes vocales, l’objectif est d’optimiser la productivité et de se libérer de certaines tâches chronophages.
Il existe aussi des logiciels de reconnaissance vocale notamment la dictée vocale qui est aujourd’hui de plus en plus utilisée. D’ailleurs, elle est utilisée par les cabinets d’avocats ou de consulting qui vantent ses mérites pour sa rapidité de saisie. On parle ici d’un rythme de 180 mots par minute contre 60 mots par minute pour une saisie manuelle. Toutefois, la plus grande révolution de l’intelligence artificielle réside dans les objets connectés et la domotique.
Les avantages de la reconnaissance vocale
En alliance avec la reconnaissance faciale, la reconnaissance vocale fait partie des plus grandes prouesses technologiques jamais connues. Avec un taux d’erreur par mot de 5,1%, elle est aujourd’hui utilisée dans les foyers ou dans les bureaux. Vantant ses mérites à faciliter le quotidien des hommes, la reconnaissance vocale ne cesse de surprendre. Un des principaux avantages de l’assistance vocale est la possibilité d’offrir une assistance personnalisée pour les personnes souffrant de handicap notamment. À l’heure où l’utilisation des ordinateurs joue un rôle clé dans l’éducation des jeunes, l’assistance vocale permet de soutenir les étudiants handicapés afin qu’ils puissent bénéficier des mêmes opportunités.
Ce concept promet également d’autres avantages, parmi lesquels on retrouve :
- Une grande fiabilité : l’utilisateur peut interagir avec la commande de reconnaissance dès l’acquisition de l’objet connecté
- L’automatisation de certaines tâches considérées comme lentes et interminables
- Réduction des erreurs humaines
- Amélioration de l’efficacité en entreprise ou chez les étudiants·
- La possibilité de collecter des informations sans intervention humaine (avantage commercial)
Les inconvénients et limites de la reconnaissance vocale
Malgré le succès fulgurant de l’assistant vocal, ce concept soulève certaines interrogations quant à la place de la protection des données privées. Divers médias ont révélé l’étendue des enregistrements accidentels (non consentis par l’utilisateur) et surtout l’envoi de tous les enregistrements à des sous-traitants dont les salariés écoutent vos conversations les plus secrètes.
Les outils d’assistance vocale comme Siri ou Google Home reposent sur l’intelligence artificielle et font appel à des entreprises externes pour l’analyse des requêtes. Jusque-là, cela reste acceptable, mais là où ça devient glissant est la possibilité d’écouter les conversations intimes par les salariés de ces entreprises.
Malgré certaines limites et inquiétudes, il est indéniable de reconnaître la prouesse technologique que constitue la reconnaissance vocale et tous les outils liés à l’intelligence artificielle. Toutefois, comme dans toute nouvelle technologie, l’aspect éthique est souvent remis en question. Certains accusent l’intelligence artificielle de vouloir devenir égal à l’homme, d’autres appuient les risques de notre vie privée avec des outils de pointe dans nos foyers. Seules les prochaines années pourraient nous éclairer sur le futur de l’intelligence artificielle dans nos vies.