Reconnaissance vocale : Microsoft annonce avoir égalé la compréhension humaine
Le système de reconnaissance vocal développé par Microsoft est désormais aussi efficace pour reconnaître les mots qu'un humain.
Que ce soit en français ou surtout en anglais, les différents outils de reconnaissance vocale sur le marché ont fait de nets progrès ces dernières années. Aujourd’hui c’est au tour de Microsoft d’annoncer que sa solution maison développée au sein de la branche Microsoft Artificial Intelligence and Research égale désormais la compréhension d’une personne.
“Nous avons atteint la parité humaine”
Concrètement, le taux d’erreur de reconnaissance de mots par leur système est aujourd’hui de 5,9%, contre 6,3% le mois dernier. Ce chiffre n’est pas parfait, mais égale celui d’une personne normale. En effet, des mots comme “have”, “is”, “a” ou “the” sont souvent source de confusion, pour une machine comme pour un humain. En effet, l’on parle ici de résultats en anglais et il faudra attendre encore plusieurs années pour obtenir un tel taux dans d’autres langues.
Pour arriver à un tel résultat, les chercheurs de Microsoft utilisent le deep learning via un système de réseau de neurones. A moins d’un sursaut rapide de la concurrence (Google, Apple, IBM…), lorsque ce nouveau système sera intégré aux outils de Microsoft comme Cortana, la firme de Redmond devrait être la plus efficace dans ce domaine.
Et après ?
Mais le travail autour de la reconnaissance vocale est encore loin d’être terminé. Ainsi, pour la suite l’équipe souhaite améliorer les résultats dans les situations avec du bruit de fond et surtout passer de la reconnaissance d’un son à une véritable compréhension par la machine. Harry Shum, vice président du groupe Microsoft Artificial Intelligence and Research déclare ainsi : “Ce sera beaucoup plus loin, beaucoup plus loin sur la route d’ici à ce que les ordinateurs puissent comprendre le véritable sens de ce qui est dit ou montré.“