Les premiers agents conversationnels sont apparus il y a plus de 20 ans sur les sites web. Depuis, des progrès spectaculaires ont été réalisés en matière de compréhension des questions et de formul…
Les premiers agents conversationnels sont apparus il y a plus de 20 ans sur les sites web. Depuis, des progrès spectaculaires ont été réalisés en matière de compréhension des questions et de formulation des réponses. Mais ne vous y trompez pas : les chatbots ne sont que le brouillon des assistants numériques intégrés, ceux qui vont littéralement prendre la main sur nos usages numériques et nous enfermer toujours plus fermement au sein des écosystèmes des big techs.
L’essentiel de l’article en 5 points-clés :
- Si le potentiel des modèles génératifs est évident, nous n’avons jusqu’à preuve du contraire pas réellement trouvé les problèmes qu’ils sont censés résoudre
- Les chatbots comme ChatGPT ne sont qu’une étape de maturation des agents conversationnels
- Les agents intelligents permettent d’étendre les capacités des chatbots en dépassant les limites de leur base de connaissances (ex : chercher des informations sur le web)
- Le prochain stade d’évolution permettra aux agents d’apprendre par eux-memes en observant le monde autour d’eux pour développer des modèles d’action
- Les big techs sont les seuls à pouvoir proposer des assistants numériques parfaitement intégrés à leur écosystème de données, contenus, services et applications
La semaine dernière j’ai assisté à l’inauguration d’un tout nouveau centre parisien de R&D dédié à l’IA. Sundar Pichai, le président de Google, avait même fait le déplacement pour marquer le coup. Assurément un événement mondain puisque la gratin du numérique était présent, de même qu’un certain nombre de personnalités politiques (Bruno Lemaire, Catherine Vautrin, Marina Ferrari, Valérie Pécresse…) venues confirmer la volonté de faire de la France, et de Paris, la locomotive européenne de l’intelligence artificielle.
À cette occasion, notre Ministre de l’Économie, des Finances et de la Souveraineté industrielle et numérique a présenté l’intelligence artificielle comme « la plus grande invention de l’humanité depuis l’écriture » (?!?). Une assertion très forte, pour laquelle nous manquons clairement de recul : de quelle IA parle-t-on : des moteurs de règles, des modèles discriminatifs ou des modèles génératifs ?
Cette petite sauterie est pour moi tout à fait emblématique de la période d’euphorie généralisée autour des IA que nous sommes en train de traverser. Une période qui va bientôt se terminer, car l’implémentation de ces nouveaux outils n’est pas si simple (Enterprises struggle to implement generative AI), et car les premiers couacs commencent à arriver (Air Canada must honor refund policy invented by airline’s chatbot).
Si les progrès réalisés ces dernières années sont spectaculaires, force est de constater que l’impact de l’IA sur notre quotidien n’est pas réellement palpable. Et pour cause : la mise en oeuvre des principes et outils de l’IA se fait au sein de logiciels ou de systèmes informatiques. Autant le déploiement des smartphones était directement visible ; autant celui de l’IA est difficile à appréhender, car il manque encore des applications directes massivement distribuées et adoptées. Nous parlons bien ici de plusieurs milliards d’utilisateurs, pas des quelques centaines de millions actuels qui ont du mal à trouver un second souffle (Analyzing ChatGPT’s Traffic Decline and Its Implications for OpenAI).
Peut-être est-ce parce que les applications actuelles de l’IA, et plus particulièrement les modèles génératifs, ne proposent pas une valeur d’usage suffisante pour séduire le grand public ou les entreprises ? Ou peut-être est-ce tout simplement une question de maturité de l’offre ?
Les chatbots et modèles génératifs ne sont qu’une étape
Voilà un an et demi que tout le monde s’extasie devant les prouesses des modèles génératifs. La sortie très récente du modèle text-to-video de l’éditeur de ChatGPT était l’occasion de renouveler toutes les prédictions sur la fin des éditeurs de contenus audiovisuels et des jeux vidéos (OpenAI’s newest model Sora can generate videos, and they look decent). Il n’y a malheureusement guère que Yann LeCun pour oser émettre un avis contraire (Meta’s chief AI researcher says OpenAI’s « world simulator » Sora is a dead end). Non pas que les modèles génératifs ne vont plus progresser, mais que la méthode employée n’est pas forcément la bonne pour atteindre l’objectif final : la création d’une intelligence artificielle généraliste.
Jusqu’à preuve du contraire, les outils de génération de textes, images, sons, vidéos… proposés par les différents éditeurs sont très spectaculaires, mais pas encore au niveau des productions professionnelles, celles pour lesquelles il y a un marché : des clients qui sont prêts à payer et accessoirement un cadre juridique strict (la propriété intellectuelle). Le principal problème étant qu’un livre, une musique ou un film ne sont pas qu’une succession de mots, de notes ou de plans, ce sont des oeuvres qui répondent à une intention artistique et une logique narrative, deux domaines complètement étrangers aux machines.
Les domaines d’application des IA génératives ne concernent pas que la génération, ils portent également sur la manipulation de contenus. Et même si les modèles génératifs peuvent potentiellement nous rendre service (ex : rédaction d’emails ou d’articles, synthèse de documents…), nous n’avons jusqu’à preuve du contraire pas réellement trouvé le problème qu’ils sont censés résoudre, car nous avions déjà des outils pour faire tout ça.
Certes, il y a le sempiternel besoin de gagner en productivité, et de ce point de vue-là, les modèles génératifs peuvent effectivement aider à rédiger ou à coder plus vite… si l’on part d’une page vierge. Une simple discussion avec un professionnel du marketing ou de l’informatique vous apprendrait qu’ils n’ont pas attendu ChatGPT pour s’outiller et chercher à améliorer leur productivité, notamment grâce à des bibliothèques de composants ou des outils de calculs prédictifs (relire à ce sujet mon panorama des solutions d’intelligence artificielle pour le marketing publié en 2017).
Ceci étant dit, tous les regards sont quand même braqués sur ChatGPT, comme si c’était l’invention du siècle, celle qui va nous soulager de toutes les tâches fastidieuses et nous propulser dans une nouvelle ère d’opulence. J’ironise, mais j’espèce sincèrement que vous avez suffisamment de discernement pour ne pas vous faire (à nouveau) berner par les vendeurs de potions miracle. Mais encore une fois, toute la difficulté de faire entendre ce discours de raison est qu’il y a bien un énorme potentiel derrière l’IA. La subtilité à comprendre est que le gigantesque potentiel de l’IA ne réside pas dans ChatGPT en particulier, mais sur ce qui viendra après, à savoir les assistants numériques : GPT was just the beginning, here come autonomous agents.
Des agents conversationnels aux chatbots « génératifs »
J’ai déjà eu l’occasion de vous expliquer pourquoi je suis persuadé que la « révolution des chatbots » n’est pas encore d’actualité : Les assistants numériques vont-ils remplacer les applications mobiles ?
L’offre actuelle est insuffisante pour réussir à convaincre des centaines de millions d’utilisateurs de changer leurs habitudes (abandonner les applications mobiles) et accorder leur confiance à de nouveaux services qui fonctionnent comme des boites noires (les assistants numériques). […] Nous ne faisons que réunir les nombreuses conditions nécessaires à l’amorçage d’une lente évolution qui prendra des années.
Ainsi, les chatbots propulsés par les modèles génératifs ne sont qu’une étape de la longue évolution des outils informatiques. Les progrès réalisés an compréhension et en formulation sont incontestables, mais nous commençons à tourner en rond avec toujours les mêmes exemples de chatbots qui ne correspondent à aucun cas d’usage réel et ne démontrent rien de probant : The AI Industry Is Stuck on One Very Specific Way to Use a Chatbot. De plus, nous avons toujours un problème systémique d’affabulation : We Tested an AI Tutor for Kids, It Struggled With Basic Math.
Face aux limites des chatbots actuels, nous en venons logiquement à nous demander à quoi pourrait bien ressembler un assistant numérique digne de ce nom… Croyez-le ou non, mais les réflexions sur les agents intelligents ne datent pas de cette année. Ainsi, il existait déjà des panoramas en 2015 comme ces deux-là : Intelligent assistant landscape shows slow growth but huge potential et An overview of the bot landscape.
À quoi pourrait ressembler un assistant numérique réellement capable de nous assister au quotidien ? Pas tout à fait aux assistantes virtuelles décrites dans la fiction (Cortana, Jarvis…), mais plutôt à un mélange de Google Now et de Google Assistant : une interface sobre (vocale ou textuelle) associée à un écosystème de contenus et services (pour pouvoir comprendre avec précision les besoins et les préférences des utilisateurs).
En ce basant sur cette description, on se rend vite compte que le chemin parcouru depuis les premiers agents conversationnels est énorme : près de 60 ans de R&D pour aboutir à des services comme Perplexity, Copilot ou Gemini. Nous sommes ainsi passés par différents stades de maturité des agents conversationnels :
- les automates de première génération reposant sur des arbres conversationnels ;
- les premiers agents conversationnels exploitant l’apprentissage automatique ;
- les premiers chatbots utilisant le deep learning et le traitement automatique du langage ;
- les premiers assistants proposant une interface vocale (Siri, Alexa…) ;
- les chatbots de seconde génération utilisant les modèles génératifs.
Pour en savoir plus, je vous recommande cette étude sur l’évolution du concept d’agent conversationnel : Charting the Evolution and Future of Conversational Agents.
Jusqu’à récemment, la compétition entre les différents acteurs en présence se limitait à un domaine (text-to-text, text-to-image…) et surtout à un format (les chatbots avec interface textuelle). Mais les choses sont en train de changer avec les modèles multi-modaux et les premières déclinaisons mobiles.
Des agents intelligents aux assistants numériques intégrés
Nous sommes en 2024, et la course à l’IA ne se limite plus à lancer son modèle ou son chatbot, mais à proposer l’itération la plus spectaculaire. Dernier exemple en date avec le lancement par Google d’une nouvelle version de son modèle génératif avec une fenêtre contextuelle de 1 million de jetons d’attention (et des expérimentations à 10 millions de jetons) : Gemini 1.5 is Google’s next-gen AI model.
Est-ce que 10 millions, ou 100 millions de jetons d’attention feront la différence ? Je ne suis pas certain, car un modèle est aussi puissant que sa base de connaissances (L’embarrassante question de l’origine des données d’entrainement des IA génératives). Comprenez par là qu’un chatbot ne comprendra les questions et ne formulera de réponses que sur la base des contenus que son modèle a ingurgité durant la phase d’entrainement. Nous parlons ici d’une masse absolument colossale de contenus d’entrainement, mais qui reste limitée (elle n’est pas infinie). Il y a ainsi une vraie différence entre les chatbots et les agents intelligents qui sont capables de faire autre chose que de rédiger des réponses et d’agir en dehors de leur base de connaissances : Beyond ChatGPT, AI Agent: A New World of Workers.
Nous pouvons alors distinguer trois types d’assistants :
- les chatbots qui génèrent des réponses à des questions ou des prompts (ex : ChatGPT)
- les copilotes qui sont capables de manipuler les contenus auxquels on leur donne accès (ex : Copilot intégré à l’environnement Microsoft)
- les agents qui peuvent effectuer des tâches plus sophistiquées et exploiter des services externes.
Des éditeurs comme OpenAI, Quora ou Hugging Face proposent ainsi d’étendre les capacités de leur chatbot grâce à leur place de marché d’agents : From Chatbot to Everything Engine. C’est une façon pour eux de permettre aux éditeurs tiers d’innover en se servant de leur chatbot comme d’une plateforme. C’est surtout un moyen de guarder un oeil sur ce qui est fait, afin d’éviter que la situation devienne hors de contrôle comme ça a été le cas en début d’année dernière avec les premiers agents officieux (BabyAGI, AgentGPT, Auto-GPT…).
Pour le moment, l’essentiel de ce qui est proposé se limite à des agents de recherche qui utilisent la « retrieval-augmented generation » (RAG) pour pouvoir récupérer des contenus ou réponses sur le web. Un bon début, mais qui dénote une volonté de ne pas se précipiter, car les conséquences pourraient être désastreuses (ex : laisser un robot faire des achats à votre place sur le web sans garde-fous). C’est en tout cas ce qui ressort de cette étude qui propose également un panorama du marché des agents autonomes : The Rise of Autonomous AI Agents, Debundling the Market Landscape.
La lecture de cette étude est très intéressante, mais elle ne fait que répéter les mêmes messages que l’on entend depuis des mois (« pour le moment c’est limité, mais la révolution est proche ») :
« Right now the biggest use of AI agents is wasting your OpenAI bill, but this will change in the near future, AI Agents will become OP in abilities to execute complex, higher order tasks ».
Visiblement, ce qui fait défaut à tous ces agents est leur incapacité à apprendre par eux-mêmes, donc leur totale dépendance au bon vouloir de leur éditeur d’enrichir leurs capacités ou leur base de connaissances.
Bientôt des agents auto-apprenants ?
Comme nous venons de la voir, il y a eu de gros progrès depuis les premiers agents conversationnels, mais il reste un long chemin à parcourir avant de pouvoir proposer un assistant numérique omniscient et omnipotent, c’est à dire l’égal d’un utilisateur équipé d’un smartphone. C’est un fait, mais c’est surtout une vérité difficile à entendre, et encore plus difficile à formuler tant le risque est grand de passer pour un ringard, celui qui n’a pas compris. Si vous lisez régulièrement ce blog, alors vous avez pu constater que j’ai sauté le pas il y a bien longtemps, notamment avec cet article publié il y a quasiment un an jour pour jour : Mythes et réalités des IA génératives.
Bref, tout ça pour dire que les chatbots ne sont qu’une étape, mais que la prochaine étape n’est pas si éloignée. Ce qui va très certainement faciliter les choses est la prise de conscience que les modèles de langage (LLMs) ne sont pas universels et n’excellent que dans certains types de tâches. Pour le reste, ils se révèlent très déceptifs : Can GPT-4 plan your next vacation? TravelPlanner benchmark reveals the harsh truth.
La bonne nouvelle est que grâce aux formidables sommes investies, le milieu scientifique est pleinement mobilisé pour préparer l’étape suivante : Large Language Models: A Survey.
Je me répète pour être certain de me faire comprendre : les modèles de langage (LLMs) sont pour le moment ce qui se fait de mieux, de plus puissant, mais ils restent limités à la génération / manipulation de contenus. L’étape d’après consistera à concevoir des modèles d’action (Large Action Models, LAMs) qui soient aussi puissants que les modèles de langage. Problème : nous ne disposons pas de corpus documentaires suffisamment riches pour pouvoir créer des modèles d’action fiables. En réalité, le facteur limitant n’est pas tant les corpus documentaires disponibles que le champ d’action : À partir du moment où le modèle est censé générer des actions (effectuer des tâches), il lui faut une compréhension fine de son champ d’actions, c’est à dire du monde qui nous entoure.
S’il existe effectivement de nombreux dictionnaires, référentiels et encyclopédies, la méthode d’apprentissage et de renforcement des modèles actuels est trop limitée pour pouvoir mettre au point un modèle d’action viable. Yann LeCun a ainsi choqué le petit milieu de l’IA en déclarant qu’un enfant de 4 ans est en moyenne exposé à 50 fois plus de contenus de par ses observations que les plus grands modèles de langage. À partir de ce constat, il a dans la foulée dévoilée une nouvelle architecture (« Video Joint Embedding Predictive Architecture« ) reposant sur de l’apprentissage auto-supervisé piloté par les objectifs : V-JEPA: The next step toward Yann LeCun’s vision of advanced machine intelligence.
Avec ce type d’architecture, l’apprentissage ne se fait plus sur la base de contenus que l’on fait analyser, mais sur des observations couplées à de la reconnaissance visuelle, spatiale et mécanique. Cela revient à imiter la façon dont les mammifères apprennent. Au cas où vous en doutiez, les mammifères, c’est nous (dans le doute, je précise).
Vous noterez que les équipes de Meta ne sont pas les seules à plancher sur les agents intelligents, car les équipes de recherche de Microsoft ont également récemment publié des travaux extrêmement prometteurs sur un prototype d’assistant baptisé UI-Focused Agent (UFO) qui utilise la reconnaissance visuelle et une combinaison d’agents pour réaliser des tâches à la place de l’utilisateur dans l’environnement Windows : Microsoft’s UFO abducts traditional user interfaces for a smarter Windows experience.
Signalons également que Meta et Microsoft ne sont pas les seuls éditeurs à plancher sur la mise au point d’assistants numériques de nouvelle génération (propulsés par de larges modèles d’action), puisque l’on sait que Google est très actif dans ce domaine, que OpenAI prépare deux agents (OpenAI shifts AI battleground to software that operates devices and automates tasks) et que plusieurs startups sont déjà positionnées sur ce créneau : HyperWrite avec son AI Assistant, et ADEPT avec ses Act-1 et Fuyu-Heavy. Deux petites startups peuvent-elles rivaliser avec les géants numériques ? Non, mais elles peuvent se faire absorber très rapidement pour accélérer la mise sur le marché d’un nouvel assistant.
La bataille ne se gagnera pas sur les ordinateurs, mais sur les smartphones
Nombreux sont ceux qui annoncent la fin des moteurs de recherche au profit des chatbots capables de formuler directement les réponses. Mais souvenez-vous que les chatbots ne sont qu’une étape intermédiaire. La finalité des travaux de recherche mentionnés plus haut n’est pas de remplacer les moteurs de recherche, mais de piloter les applications à la place de l’utilisateur.
Sommes-nous en train d’annoncer des ordinateurs ou smartphones entièrement pilotables à la voix ? Oui, c’est très clairement l’objectif : The ‘self-operating’ computer emerges et Enabling conversational interaction on mobile with LLMs.
Certains vont même plus loin et envisagent de remplacer les applications ET le smartphone en proposant des terminaux entièrement pilotables à la voix. C’est en tout cas le pari fou de startups comme Humane ou Rabbit : Les IA génératives relancent le segment des accessoires connectés.
Si je ne peux que saluer la prise de risque de ces startups qui sont clairement en avance de phase, je suis très intrigué par ce prototype de smartphone sans application par Deutsche Telekom où les interfaces sont générées en temps réel en fonction des besoins et contextes : This concept phone ditches all apps and uses AI to read your mind.
Ce prototype sera présenté plus en détail la semaine prochaine lors du Mobile World Congress à Barcelone, l’occasion pour la startup qui a développé l’assistant numérique (Brain.ai) d’éprouver son concept de « smartphone intégré ».
Tout ceci est très intéressant, mais nécessite de se frotter à la réalité des usages, aux habitudes des utilisateurs, mais surtout aux contraintes des terminaux. Car développer une application est une chose, mais développer une sur-couche à Android en est une autre (les équipes de Huawei s’y sont cassé les dents, mais ça ne les empêche pas de développer un concept similaire : Meng Wanzhou unveils Huawei’s “all intelligence” strategy for the next decade).
Ainsi, quelque soit l’ingéniosité des modèles, outils ou interfaces développés par ces startups, ou même les budgets de R&D investis par OpenAI, Meta ou Amazon, ceux qui auront le dernier mot seront immanquablement ceux qui ont le contrôle des terminaux : Microsoft pour les PC, Apple pour les iPhone et Mac, Google pour les smartphones Android. Leur principal levier de différenciation étant l’intégration parfaite entre le matériel, le système d’exploitation, les logiciels et les données des utilisateurs (ex : préférences, historique de commandes, documents, fichiers, photos…).
Nous n’avons pas d’information précises sur les projets d’Apple, mais nous connaissons les ambitions de Google et Microsoft : imposer Gemini et Copilot à leurs utilisateurs. S’il est compliqué de prédire l’évolution de ces assistants numériques intégrés, et notamment la possibilité de piloter son ordinateur ou son smartphone à la voix, il est certain que l’âge d’or des applications est derrière nous. Attendez-vous donc à un nouveau tour de vis des big techs pour renforcer leur mainmise sur les usages numériques. À moins que l’UE en décide autrement…
Si vous souhaitez en savoir plus sur l’évolution des agents conversationnels ou l’état de l’art des assistants numérique, n’hésitez pas à me contacter pour un projet de séminaire interne ou de formation.