Prêts pour le traducteur universel? L’oral est la nouvelle frontière de l’IA
Intelligence artificielle, une révolution chasse l'autre. L'arrivée de nouveaux outils de reconnaissance et de synthèse vocale ultra performants laisse entrevoir aux experts l'arrivée de traducteurs universels et d'assistants vocaux enfin convaincants. Et aussi d'une vague de deepfakes difficile à contrôler.
Cet article a été publié dans notre newsletter du soir, Le Point fort. N'hésitez pas à vous inscrire, c'est gratuit.
La sortie retentissante de GPT-4 pour la génération de textes masque des développements tout aussi significatifs dans les applications de l’intelligence artificielle à la parole. Whisper d’Open AI et Vall-E X de Microsoft peuvent reconnaître la voix, et la traduire dans une autre langue.
Cette fois, ça y est. Le film Her, où le personnage principal tombe amoureux d’une IA à la voix irrésistible de Scarlett Johansson, et le poisson Babel, l’animal traducteur-interprète en temps réel du célèbre Guide du voyageur galactique de Douglas Adams, sont vraiment à bout touchant.
Pourquoi c’est intéressant. Les tentatives actuelles de traduction instantanée, comme celle de l’application de visioconférence Skype, sont limitées, notamment parce que la voix reste peu convaincante. Les agents conversationnels comme Siri, Alexa ou Cortana répondent quant à eux surtout à des commandes, produisant des réponses simples et stéréotypées.
Début mars, des informaticiens ont associé ChatGPT aux logiciels de la start-up britannique ElevenLabs pour lire les textes générés à haute voix.
Les technologies vocales dévoilées par OpenAI et Microsoft laissent entrevoir des applications de conversation orale encore plus puissantes, comme l’ont confirmé à Heidi.news les chercheurs consultés.
La voix. Depuis 1791 et l’invention de la première machine qui parle par Wolfgang von Kempelen (qui a aussi produit le canular du Turc mécanique joueur d’échec), la quête d’une synthèse vocale convaincante n’a jamais cessé.
Aujourd’hui, nos smartphones, nos GPS ou nos enceintes connectées sont toutes dotées de la parole.
Toutefois, la plupart des programmes de synthèse vocale existants nécessitent une grande quantité de données pour être entrainés.
En outre, ils n'ont pas encore trouvé le moyen de rendre les voix de l'IA suffisamment humaines, principalement parce que les émotions et les petites inflexions sont très complexes à transmettre.
En matière de traduction orale, les principaux projets annoncés, comme Babel Fish en 2013 par Google, n’ont pas abouti.
Les quelques traducteurs commercialisés restent décevants et fastidieux.
Cet article est réservé aux abonnés.
Déjà abonné(e) ? Se connecter