Casque AI M2 : traduction instantanée pour plusieurs locuteurs

Les écouteurs sans fil ont toujours offert Pixel Buds De la fonctionnalité Google Traduction instantanée incroyable. Au cours des dernières années, des marques comme Timkettle ont proposé des écouteurs similaires aux clients professionnels. Cependant, toutes ces solutions ne peuvent gérer qu’un seul flux audio à la fois pour la traduction.

Des chercheurs de l’Université de Washington (UW) ont développé quelque chose de vraiment remarquable sous la forme d’écouteurs alimentés par l’IA qui peuvent traduire la voix de plusieurs locuteurs à la fois. Imaginez une personne multilingue dans un bar bondé, capable de comprendre les gens autour d’elle, qui parlent des langues différentes, simultanément. Cette innovation représente un bond en avant dans la technologie de traduction simultanée.

L’équipe appelle son innovation « traduction spatiale de la parole », et elle est réalisée à l’aide d’écouteurs binauraux. Pour ceux qui ne le savent pas, la technologie audio binaurale tente de simuler les effets sonores exactement comme les oreilles humaines les entendent naturellement. Pour l'enregistrer, des microphones sont placés sur la tête d'un mannequin, espacés de la même distance que les oreilles humaines de chaque côté. Cette technologie repose sur l’enregistrement audio de deux sources différentes pour créer une expérience d’écoute 3D.

Cette approche est cruciale car nos oreilles non seulement entendent le son, mais nous aident également à mesurer la direction de sa source. L’objectif global est de produire une scène sonore naturelle avec un effet stéréo qui peut fournir une sensation vivante, semblable à celle d’un concert. Ou, dans le contexte moderne, l’écoute spatiale. Cette technologie améliore l’expérience utilisateur en offrant un son surround réaliste.

Ces travaux sont le fruit d'une équipe dirigée par le professeur Shyam Gollakota, dont l'expertise comprend des applications permettant d'intégrer un GPS sous-marin à des montres connectées, de transformer des scarabées en photographes, des implants cérébraux capables d'interagir avec des appareils électroniques, une application mobile capable d'entendre les infections, et Plus. Ces réalisations témoignent de l'expertise du professeur Gollakota en matière de technologies innovantes.

Comment fonctionne la traduction multi-locuteurs ?

« Pour la première fois, nous avons conservé la voix de chaque personne et la direction d’où elle venait », explique Golkota, actuel professeur à la Paul G. Allen School of Computer Science and Engineering de l’institut.

L’équipe compare sa technologie à un radar, qui commence par identifier le nombre de locuteurs dans la zone environnante et met à jour ce nombre en temps réel lorsque les gens entrent et sortent de la zone d’écoute. Cette approche est entièrement basée sur l’appareil et n’implique pas l’envoi de flux vocaux d’utilisateur vers un serveur cloud pour traduction. Oh, l'intimité !

En plus de traduire les discours, le groupe maintient également « les qualités expressives et le volume de la voix de chaque locuteur ». De plus, les réglages directionnels et de volume sont effectués lorsque l'enceinte se déplace dans la pièce. Il est intéressant de noter qu’Apple serait également en train de développer Un système qui permet aux AirPods de traduire la voix en temps réel.

Comment la traduction instantanée est-elle réalisée grâce à l’intelligence artificielle ?

L’équipe de l’Université de Washington (UW) a testé les capacités de traduction des écouteurs intelligents alimentés par l’IA dans près d’une douzaine d’endroits intérieurs et extérieurs. En termes de performances, le système peut recevoir, traiter et produire l'audio traduit en 12 à 2 secondes. Les participants au test semblent préférer un délai de 4 à 3 secondes, mais l’équipe travaille à accélérer le processus de traduction.

Jusqu'à présent, l'équipe n'a testé que des traductions en espagnol, en allemand et en français, mais elle espère ajouter Plus à sa suite. Techniquement, elle a condensé la séparation aveugle des sources, la localisation, la traduction expressive en temps réel et la diffusion binaurale en un seul flux, une prouesse impressionnante. Cette intégration de technologies avancées représente une avancée majeure dans le domaine de la traduction simultanée.

Pour le système, l’équipe a développé un modèle de traduction vocale capable de fonctionner en temps réel sur la puce Apple M2, permettant ainsi une inférence en temps réel. Les tâches audio ont été gérées par une paire d'écouteurs antibruit Sony WH-1000XM4 et un microphone USB binaural Sonic Presence SP15C.

Et voici la meilleure partie. « Le code machine de preuve de concept est disponible pour que d’autres puissent s’en servir », indique le communiqué de presse de la fondation. Cela signifie que la communauté scientifique et la communauté des logiciels open source peuvent apprendre et s'appuyer sur des projets plus avancés basés sur les fondations posées par l'équipe de l'UW. Cela ouvre la porte à de futurs développements dans la technologie de traduction utilisant l’intelligence artificielle.