abo GPT-4: Après le texte, ChatGPT se met à l'image – et bientôt, la voix?
Le nouveau modèle de langage de GPT-4 vient d'être dévoilé, qui peut désormais interpréter des images. Mais il y a fort à parier que les prochains grands développements intègreront la voix. Dans le viseur: le vieux rêve d'une interprétation automatique des langues.
OpenAI, l’entreprise derrière le moteur conversationnel ChatGPT vient de dévoiler mardi 14 mars GPT-4, la nouvelle version de son modèle de langage, encore plus puissante et capable de traiter des images. Une annonce très attendue dans le monde de la tech, après l’engouement suscité à la fin de l’année par cette IA.
L’intégration de l’image au modèle de langage GPT était attendue (et d’ailleurs annoncée), ne serait-ce que parce que beaucoup d’IA spécialisées, comme Dall.e et Midjourney, sont déjà capables d’interpréter de telles entrées.
Mais des développements parallèles laissent penser que ChatGPT s’apprête à gagner une modalité de plus: le langage parlé. Objectif: obtenir des assistants virtuels réellement intelligents, et traduire en temps réel des conversations en plusieurs langues.
Ce qui est nouveau. La version de ChatGPT dévoilée en novembre 2022, et qui a marqué une rupture évidente dans le monde des IA conversationnelles, utilisait le modèle de langage GPT-3.5.
Par rapport à cette version, GPT-4 apporte des progrès incrémentaux:
l’IA peut analyser des textes jusqu’à une centaine de pages (25’000 mots),
elle n’est plus cantonnée aux requêtes textuelles et peut analyser des images ou des schémas,
elle peut ainsi fournir des descriptions détaillées d'images ou même coder un site web à partir d’un simple schéma.
GPT4 est plus fiable que son prédécesseur et a réussi, selon OpenAI, à surpasser l’humain sur la plupart des examens de lycée et de début d’enseignement supérieur — y compris l’examen d’entrée au barreau pour les futurs avocats.
Mieux, à quel point? Sur Twitter, les débats font rage entre ceux qui voient une nouvelle accélération des IA génératives et ceux qui pointent, à raison, les erreurs que continuent de produire ces algorithmes et l’absence de transparence d’OpenAI.
Sam Altman, le CEO d’OpenAI, entend rester modeste sur la nature des progrès accomplis:
«Je ne veux pas donner l'impression que nous avons résolu le problème du raisonnement ou de l'intelligence, ce qui n'est certainement pas le cas.»
OpenAI admet aussi que le logiciel continue de produire parfois des résultats erronés (des hallucinations) et des biais que l’entreprise cherche à corriger.
Sur Twitter, les critiques portent surtout sur l’absence de transparence d’OpenAI quant aux caractéristiques du modèle de langage GPT-4. Comme le remarque Emily Bender, linguiste à l’Université de Washington:
«Compte tenu du paysage concurrentiel et des implications en matière de sécurité des modèles à grande échelle comme le GPT-4, l’apport ne contient pas d'autres détails sur l'architecture (y compris la taille du modèle), le matériel, le calcul d'entraînement, la construction de l'ensemble de données et la méthode d'apprentissage.»
Transition vers le payant. OpenAI a commencé à vendre l'accès à GPT-4 afin que les entreprises puissent créer leurs propres applications à partir de cette technologie.
L'entreprise a également utilisé cette technologie pour créer une nouvelle version payante (20 dollars par mois) de son ChatGPT Plus.
La stratégie marketing est bien rodée: GPT-4 était prêt dès août 2022 soit trois mois avant la sortie de ChatGPT (basée sur GPT-3.5) et un retentissent mondial qui a sorti OpenAI de l’ombre.
Et demain… la voix. Si GPT-4 devraient servir aux entreprises à produire toutes sortes d’applications de textes et d’analyses d’images, deux autres développements logiciels récents suggèrent une extension rapide vers la parole orale.