Les mois passent, et nous sommes toujours en attente de la révolution de l’IA, celle que l’on nous annonce comme une évidence, mais dont l’horizon semble toujours aussi lointain. …
Les mois passent, et nous sommes toujours en attente de la révolution de l’IA, celle que l’on nous annonce comme une évidence, mais dont l’horizon semble toujours aussi lointain. Le blocage ne vient pas des capacités des modèles génératifs, mais plutôt des limitations imposées par les interfaces conversationnelles des chatbots. À défaut d’être naturelles, ces interfaces se révèlent ainsi plus intimidantes qu’autre chose. Peut-être est-il plus sage de placer nos espoirs dans les assistants numériques de nouvelle génération, les dignes héritiers de Clippy et de Siri, ceux qui sauront comprendre avec finesse les besoins des utilisateurs et choisir les meilleurs modèles pour y répondre.
En synthèse :
- L’adoption des chatbots est bridée par leurs interfaces conversationnelles qui se révèlent contre-intuitives et déroutantes pour la majeure partie des utilisateurs ;
- Outre les usages liés à la génération et la manipulation de contenus, les utilisateurs ne seront convaincus de changer leurs habitudes que part des outils capables d’assumer des tâches complexes nécessitant de fortes capacités de raisonnement ;
- S’il est possible d’améliorer la faculté de raisonnement des modèles génératifs avec des techniques de prompting plus sophistiquées (ex : Chain of Thoughts), le prochain palier de maturité sera de mettre au point des modèles capables de réaliser des actions diverses ;
- Les limitations des modèles génératifs ne leur permettant pas de réaliser toutes les actions (ex : affabulation), les éditeurs mettent au point des architectures hybrides combinant différentes approches et modèles pour obtenir de meilleurs résultats ;
- Les startups du secteur sont aujourd’hui confrontées à des difficultés qui ne sont plus que d’ordre technique et sont rattrapées par les acteurs historiques qui bénéficient de ressources considérables et surtout d’une parfaite maitrise des terminaux numériques (ordinateurs et smartphones).
Il y a 8 ans, je publiais un article intitulé Les chatbots ne sont qu’une étape intermédiaire vers les interfaces naturelles. Les années 2010 étaient une période faste pour les agents conversationnels textuels ou vocaux boostés à l’IA, avec de très fortes prévisions de croissance et la perspective de remplacer les applications et les navigateurs (cf. Les assistants personnels sont les nouveaux navigateurs web publié en 2017). Comme vous vous en doutez, la révolution des assistants personnels n’a pas eu lieu, car les capacités des IA de l’époque n’étaient pas suffisantes : How Siri, Alexa and Google Assistant Lost the A.I. Race.
Si l’épisode des assistants vocaux peut rétrospectivement être considéré comme un faux départ, la révolution que l’on nous promet avec l’IA générative présente de fortes similitudes. Certes, la situation est différente, car les modèles génératifs ont fait d’énormes progrès, et vont continuer à en faire, mais avant d’annoncer la suprématie des IA sur les moteurs de recherche et applications il va impérativement falloir améliorer les interfaces naturelles, celles qui nous permettent d’interagir avec ces IA, et celles qui vont conditionner la vitesse d’adoption de ces nouveaux outils.
De chatbots aux interfaces trop arides
Nous assistons au retour en grâce des chatbots depuis 18 mois avec le lancement de ChatGPT. Un service qui va assurément marquer durablement les esprits et transformer les usages numériques, mais qui paradoxalement est plutôt limité. La principale limitation de ChatGPT, et de ses rivaux, n’est pas liée à ses capacités techniques (puisqu’elles évoluent dans le temps), mais plutôt à son interface conversationnelle qui se révèle contre-intuitive et déroutante pour les utilisateurs.
Si l’on prend un minimum de recul, on se rend compte que les chatbots de dernière génération (ceux qui carburent aux modèles génératifs) souffrent du même problème que les assistants vocaux de l’époque : l’adoption est limitée, car les utilisateurs ont du mal à exprimer leurs besoins, car l’apprentissage de leur fonctionnement est empirique, et car il n’y a pas réellement d’aide en ligne (tout au plus quelques exemples de prompts). C’est un peu comme si l’adoption des IA génératives était un parcours initiatique, qu’il fallait se montrer digne pour avoir le droit d’en bénéficier.
Le dernier service à nous avoir fait le coup de l’absence de manuel d’utilisation, c’est Snapchat, l’application sociale qui est selon moi la plus aboutie, mais qui n’a jamais réussi à dépasser la taille critique d’utilisateurs. On se demande pourquoi d’ailleurs…
Dans tous les cas de figure, cette perte de repères liée à une interface déroutante est très pénalisante pour l’adoption : aux dernières nouvelles, le taux d’équipement des enceintes connectées était de 15%. Cela signifie que 85% des foyers n’ont pas installé d’enceintes connectées, soit car les habitants n’en voient pas l’utilité, soit car ils ne savent pas ou ne veulent pas s’en servir. Il y a ici une comparaison intéressante à faire avec les chatbots : selon ce sondage récent, seul 1/3 des personnes aux États-Unis ayant bénéficié d’une éducation supérieure a déjà utilisé ChatGPT : Americans’ use of ChatGPT is ticking up, but few trust its election information.
Dans la mesure où ce service n’est disponible que depuis 18 mois, les statistiques d’utilisation présentées ci-dessus sont encourageantes (elles affichent une belle progression), mais elles masquent en réalité un problème d’adoption : si 20% des salariés ont déjà utilisé ChatGPT, ça veut dire que 80% ne l’ont pas fait. À votre avis, combien de temps va-t-il falloir pour convaincre et former tous ces gens ?
Vous pourriez me dire que c’est à cause des DSI des entreprises qui bloquent l’accès à ChatGPT, mais ça serait oublier que l’accès à Bing et à la version grand public de Copilot est libre… Et si l’on prend en compte les directives des DSI, les chiffres sont encore plus faibles : OpenAI has 600,000 individual users for ChatGPT Enterprise. Pour avoir une vision représentative du marché, il nous faudrait connaitre le taux d’adoption des offres de Microsoft (Copilot for Office 365), de loin la société la mieux placée pour « forcer » l’adoption, mais ils ne communiquent malheureusement pas dessus. Cependant, des discussions que j’ai pu avoir avec mes clients, les testeurs de ces offrent s’en désintéressent assez rapidement, car il y a un effort d’apprentissage trop important à fournir.
Tout récemment, Google nous montre l’exemple avec des fonctionnalités simples à comprendre et à utiliser dans son offre Gemini for Workspace : « Help me write » pour Gmail, « Instant polish » pour Docs, « Format table » pour Sheet, « Summarize conversation » pour Chat… Gmail adding voice input, Gemini for Google Chat, Meet ‘Translate for me,’ & more.
Une intégration facilitée donc, mais passés les usages les plus évidents, qui vont très certainement plaire aux techno-enthousiastes, la conversion du reste des salariés va assurément être longue et compliquée. D’autant plus qu’il y a de nombreuses façons de se perdre en chemin comme avec MLblocks qui permet de concevoir des workflows de génération d’images en no-code ! 🤨
La première prise en main et la courbe d’apprentissage sont donc des points de blocage qu’il va être difficile de contourner, à moins que la valeur d’usage motive les utilisateurs potentiels à changer leurs habitudes et à faire un effort pour apprendre…
Action > Raisonnement > Langage
En seulement 2 ans, les modèles génératifs ont fait des progrès spectaculaires. Une évolution considérable alimentée par les forces d’innovation combinées des chercheurs, startups et big techs. Une très belle performance collective, mais la progression des IA génératives semble atteindre un plateau, car la puissance des modèles textuels est corrélée avec la consommation d’énergie, et leur précision avec le nombre et la qualité des données d’entrainement (cf. L’embarrassante question de l’origine des données d’entrainement des IA génératives). Pour pouvoir faire la différence et se démarquer, il faut beaucoup de ressources (puissance de calcul, données…), mais la course au gigantisme touche à sa fin.
Ainsi, croyez-le ou non, mais les éditeurs d’IA génératives sont déjà à cours de données d’entrainement, aussi bien en quantité qu’en qualité (AI Companies Are Running Out of Internet). Après avoir aspiré tous les contenus textuels disponibles gratuitement sur le web, les grands éditeurs cherchant toujours plus de contenus, ils ont utilisé la retranscription des vidéos YouTube (OpenAI and Google reportedly used YouTube transcripts to train their AI models). Une astuce qui ne doit pas particulièrement plaire aux créateurs de ces vidéos… Quelle va être la prochaine étape : utiliser les retranscriptions des podcasts ? Des chansons ? Bon courage pour vectoriser Djadja d’Aya Nakamura…
Autre frein à la course au gigantisme : la consommation d’énergie. À une époque pas si lointaine, l’humanité se souciait de la préservation de ses ressources naturelles. Mais depuis l’avènement des IA génératives, c’est comme si les préoccupations environnementales étaient mises de côté pour laisser libre cours aux éditeurs de modèles génératifs de plus en plus gourmands : How Much Does it Cost to Use an LLM?
Heureusement, cette question de la consommation d’énergie est quand même prise au sérieux par des startups qui proposent des architectures matérielles alternatives (AI chip race: Groq CEO takes on Nvidia) et même par les éditeurs eux-mêmes qui conçoivent des processeurs neuraux optimisés avec une réduction annoncée de 60% de la consommation (Google announces Axion, its first custom Arm-based data center processor).
Les progrès les plus intéressants ne se situent pas néanmoins au niveau matériel, mais logiciel, puisque les modèles génératifs de dernière génération (ex : GPT-4, Gemini, Mixtral 8x22B…) ne reposent plus sur un réseau de neurones artificiels monolithique, mais sur une combinaison de réseaux de neurones. L’idée derrière cette architecture « Mixture of Experts » (MoE) est d’améliorer à la fois les performances (grâce à des mini-modèles spécialisés dans une seule tâche) et la consommation d’énergie (en ne mobilisant qu’une partie du système) : Mixture of Experts Explained.
Pour le moment, les architectures de type MoE n’exploitent généralement qu’une dizaine d’experts artificiels (les mini-modèles), notamment pour réaliser des tâches liées au traitement de contenus textuels (synthèse, traduction, reformulation…). Mais il est en théorie envisageable d’avoir une architecture qui mobilise des centaines, des milliers, voir des millions d’experts virtuels pour pouvoir couvrir tous les besoins possibles.
Sommes-nous en train de parler d’une IA généraliste ? Pas tout à fait, car nous sommes loin de posséder la liste de tous les sujets possibles et de toutes les activités (souvenez-vous que Wikipedia et ses +/- 7 M d’articles n’est plus assez riche pour faire progresser les modèles). Pour qu’une IA soit considérée comme généraliste, il faut qu’elle soit capable de traiter tous types de problèmes, notamment les nouveaux, ceux qui ne sont pas documentés. Pour y parvenir, une IA n’a pas forcément besoin de plus de contenus d’entrainement, mais de nouvelles formes de raisonnement.
C’est justement là où l’on trouve les innovations les plus intéressantes, notamment avec de nouvelles pratiques de prompting qui forcent les modèles à décomposer leurs raisonnements, voir à paralléliser la résolution d’un problème ou d’une demande. Je fais ici référence aux meta-prompts, aux prompts reposant sur les chaines de pensées (« Chain of Thoughts » = CoT), sur les arbres de pensées (« Tree of Thoughts » = ToT) ou sur les squelettes de pensées (« Skeleton of Thoughts » = SoT) : The Holy Grail of AI Prompts: Unveiling the Tree of Thoughts Framework.
Pour vous aider à vous y retrouver dans ces différentes techniques, je vous recommande cet article qui propose une classification : Classifying Prompt Techniques for Large Language Models.
Comme vous pouvez le constater, les progrès récents ne se font plus dans le domaine de la génération / manipulation de contenus textuels ou multimédia, mais dans la capacité de raisonnement. Nous assistons ainsi à une évolution séquentielle des modèles : GPT-3 se définit comme un LLM (un Large Language Model), GPT-4 comme un LMM (un Large Multimodal Model), tandis que GPT-5 devrait se positionner comme un LRM (un Large Reasoning Model).
Et qui dit « raisonnement », dit forcément « autonomie », c’est-à-dire la capacité des modèles à réaliser des tâches complexes et à pouvoir faire des actions à la place des utilisateurs. Nous nous acheminons ainsi petit à petit vers des Large Action Models. Tout ceci est pour le moment théorique, car la marche à franchir est très haute, mais les chercheurs du monde entier sont monopolisés sur cet objectif.
Vous noterez que je parlais déjà des Large Action Models en début d’année, car ils sont indispensables à la montée en puissance des assistants numériques :
La prochaine étape décisive sera la mise sur le marché d’assistants numériques qui fonctionnent parfaitement, soient suffisamment bien conçus pour être simples à prendre en main et suffisamment maitrisés pour limiter au maximum les dérives. Ce qui n’est pas une mince affaire […] L’offre actuelle est insuffisante pour réussir à convaincre des centaines de millions d’utilisateurs de changer leurs habitudes (abandonner les applications mobiles) et accorder leur confiance à de nouveaux services qui fonctionnent comme des boites noires (les assistants numériques).
Ne vous laissez pas avoir par cette distorsion de la réalité propagée par les médias (le récit habituel sur la disruption imminente), nous ne faisons que réunir les nombreuses conditions nécessaires à l’amorçage d’une lente évolution qui prendra des années.
Les assistants numériques vont-ils remplacer les applications mobiles ?
Comme mentionné plus haut, le formidable engouement pour l’IA de ces dernières années permet de mobiliser des ressources considérables, et d’accélérer ainsi de façon significative la R&D. Capitalisant sur le principe de Mixture of Experts, les éditeurs conçoivent maintenant des architectures hybrides extrêmement prometteuses.
Des agents encore trop limités
Il y a quelques mois, OpenAI sortait en grande pompe sa place de marché d’agents intelligents censés offrir aux créateurs comme aux utilisateurs une grande souplesse et surtout beaucoup de puissance. Au final, ces « custom GPTs » sont plutôt limités et le GPT Store a remballé ses ambitions : OpenAI’s Chatbot App Store Is Off to a Slow Start.
La principale déception de ces pseudo agents intelligents est qu’ils ne sont en fait qu’une simple couche de paramétrages par dessus ChatGPT. Pour pouvoir être parfaitement opérants, ces agents intelligents devraient être dotés de capacités de raisonnement plus poussées et surtout d’une faculté à comprendre leur environnement informatique (APIs) ou physiques (à travers les capteurs d’un smartphone), ce qui n’est pas encore le cas. Voilà pourquoi les équipes d’OpenAI travaillent d’arrache-pied sur la prochaine itération de leur modèle de référence (GPT-5, qui devrait sortir cet été), pour pouvoir proposer une réelle plateforme sur laquelle reposerait les agents intelligents conçus par des créateurs externes.
Les Large Action Models sont donc la prochaine étape de maturation de l’IA générative. Stimulés par OpenAI, des éditeurs historiques comme Microsoft et Apple sont en train de finaliser des modèles capables d’utiliser des ressources externes (sites web ou applications) en les observant et les manipulant comme le font les utilisateurs :
- Microsoft AI Research Introduces UFO: An Innovative UI-Focused Agent to Fulfill User Requests Tailored to Applications on Windows OS, Harnessing the Capabilities of GPT-Vision ;
- Apple researchers develop AI that can ‘see’ and understand screen context et Apple’s new AI model could help Siri see how iOS apps work.
Là, nous avons affaire à des agents nettement plus « intelligents » qui sont par exemple capables de trouver l’email de contact d’un professionnel sur son site web pour pouvoir lui envoyer un message et prendre RDV avec lui à l’absence d’une API ou d’un service de réservation tiers. C’est une avancée majeure par rapport à ce que peuvent faire les modèles de langage (reformuler, résumer, traduire…), mais ce n’est que la partie visible de l’iceberg…
Vers des modèles d’action hybrides
L’intelligence artificielle est un domaine de recherche et d’expérimentation très vaste et complexe, mais pour vous la faire simple, les travaux de ces derniers mois se concentrent sur la mise au point d’assistants numériques beaucoup plus puissants que ceux que nous avons connus il y a quelques années, avec notamment trois champs d’innovation : les systèmes de RAG, les agents programmables et les architectures hybrides.
J’ai déjà eu l’occasion dans de précédents articles de vous parler des systèmes de RAG (Retrieval Augmented Generation). Leur principe de fonctionnement est d’associer la puissance des LLMs (compréhension, rédaction…) avec la richesse du web (variété des informations disponibles). Un système de RAG traduit ainsi la question d’un utilisateur en une demande de récupération d’informations soumise à un agent de recherche qui va rapatrier ces informations qui seront ensuite analysées et reformulées sous forme de réponse. C’est le même principe de questions / réponses que proposent les chatbots reposant sur des modèles génératifs, mais avec de la recherche externe : de la génération augmentée grâce à la récupération (Introduction to RAG: GenAI Systems for Knowledge).
Ce principe est plutôt bien maitrisé, avec des outils de conception de systèmes de RAG toujours plus précis ou simples à mettre en oeuvre comme Verba ou Haystack. Vous noterez que dans les dernières mises à jour de ces outils, il n’est pas que question de recherche / récupération d’informations, car il est également possible de définir des agents plus polyvalents.
À partir du moment où il est possible de définir un agent chargé de récupérer de l’information ou des données dans une base, il est tout à fait possible de programmer un agent pour qu’il fasse des choses plus complexes. Ces agents programmables reposent sur des environnements de développement plus complets comme LangChain développé par Cohere : What is LangChain Framework?
L’idée derrière ces deux champs d’innovation est de combiner des chatbots avec des agents pour pouvoir bénéficier de la capacité de compréhension / génération des premiers avec la rigueur des seconds pour pouvoir aller au-delà de la génération / manipulation de contenus textuels. Nous pouvons d’ailleurs considérer que ce ne sont pas deux, mais un seul vaste champ d’innovation qui semble avoir été préempté par Cohere, une société canadienne qui a le vent en poupe : Cohere’s new LLM « Command R+ » is optimized for chatting with your data (RAG) et LangChain lands $25M round, launches platform to support entire LLM application lifecycle.
Et puisqu’il est question de combinaison, sachez que le troisième gros champ d’innovation est celui des architectures hybrides qui ne combinent pas des modèles de langage entre eux (comme le font les MoE), mais des IA entre-elles, ou pour être plus précis qui combinent différentes approches et méthodes de machine learning pour obtenir de meilleurs résultats : The Shift from Models to Compound AI Systems.
C’est dans ce champ d’innovation que l’ont va trouver des IA hybrides reposant sur des architectures neuro-symboliques qui combinent la rigueur des moteurs de règles (modèle logique) avec la puissance d’analyse du machine learning traditionnel (modèle discriminatif) et les capacités des LLMs (modèles génératifs). Ces combinaisons nous donnent des systèmes à la fois souples (facilement adaptable à toutes les situations) et robustes (des résultats plus précis, plus faciles à anticiper).
En poussant la logique encore plus loin, il est même possible de combiner des IA avec des outils informatiques traditionnels, comme la possibilité avec le cloud de Google de vérifier les réponses générées par le modèle avec une recherche Google ou avec des données internes stockées dans une base : Google drafts search engine to « ground » AI results in truth.
Dans tous les cas de figure, à aucun moment les utilisateurs ne sont censés choisir telle ou telle architecture, car les assistants numériques sont justement censés masquer cette complexité et grandement simplifier l’utilisation de ces IA hybrides. L’important étant de bien comprendre le besoin de l’utilisateur pour pouvoir utiliser le bon système ou la bonne architecture. C’est d’ailleurs ce que propose Claude (Anthropic’s Claude 3 can now reliably select the right tool for the job from hundreds of options), la nouvelle coqueluche des experts en IA (Anthropic’s Claude 3 replaces OpenAI’s GPT-4 as most popular user-rated LLM), dont l’éditeur bénéficie du soutien de géants numériques comme Amazon ou Google (Amazon Completes $4 Billion Investment In Anthropic).
Que pouvons-nous conclure de tout ça ? Certainement pas que l’IA généraliste est à portée de main, car c’est une chimère (Meta’s AI chief: LLMs will never reach human-level intelligence), mais plutôt que des progrès considérables ont été réalisés et sont toujours en cours pour mettre au point des assistants numériques toujours plus puissants, mais que la clé de l’adoption réside dans la capacité de ces assistants à bien comprendre le besoin des utilisateurs pour leur apporter entière satisfaction.
C’est d’ailleurs une conviction que je partageais déjà avec vous il y a quelques semaines :
Les chatbots et modèles génératifs ne sont qu’une étape […] Le chemin parcouru depuis les premiers agents conversationnels est énorme : près de 60 ans de R&D pour aboutir à des services comme Perplexity, Copilot ou Gemini. […] Il y a une vraie différence entre les chatbots et les agents intelligents qui sont capables de faire autre chose que de rédiger des réponses et d’agir en dehors de leur base de connaissances.
S’il est compliqué de prédire l’évolution de ces assistants numériques intégrés, et notamment la possibilité de piloter son ordinateur ou son smartphone à la voix, il est certain que l’âge d’or des applications est derrière nous.
Comme toujours, l’adoption à grande échelle ne se fera pas sur des critères purement techniques, mais sur la simplicité d’utilisation pour pouvoir surmonter la barrière du changement d’habitudes.
Ne pas brusquer ou effrayer les utilisateurs
Si vous lisez ce blog régulièrement, ou dernièrement, alors vous avez déjà pu constater mon extrême scepticisme quant aux prévisions de croissance du marché : plus de 22 MM$ de C.A. dès l’année prochaine, avec un taux d’adoption de 46 % (Generative AI Market Size & Trends Statistics).
Ce qui nourrit le plus mon scepticisme est que l’apprentissage des usages numériques a été un long et laborieux parcours pour la majeure partie des utilisateurs, ils vont logiquement avoir beaucoup de mal à changer des habitudes durement acquises. D’autant plus que les usages numériques s’appuient sur plusieurs décennies d’usages informatiques. Pensez-vous qu’il suffit de proposer une interface naturelle pour que les utilisateurs soient libérés de toute contrainte et puissent ainsi exprimer leur créativité ? Je ne pense pas, car la formulation d’un besoin est une tâche plus complexe / intimidante qu’elle n’y paraît, car ils ont plus l’habitude de chercher et faire eux-mêmes par l’intermédiaire d’interfaces traditionnelles (champ de recherche, menus, liens, boutons…).
Voilà pourquoi je reste persuadé que les chatbots vont connaitre un plateau dans leur adoption, car leur interface n’est pas adaptée au modèle mental des utilisateurs (un ordinateur est comme une armoire avec des dossiers, tandis que le web est comme une bibliothèque). D’où la nécessité de scénariser le recours aux modèles génératifs : de ne les proposer qu’au bon moment et au bon endroit, c’est à dire dans les flux de travail existants (De l’intérêt d’outils intégrés et maitrisés pour faciliter l’adoption de l’IA).
Je suis ainsi tout à fait en phase avec le cadre de mise en oeuvre de l’IA générative proposé ici : The GenAI Compass: a UX framework to design generative AI experiences. Cette approche reposant sur l’intégration de fonctionnalités liées aux modèles génératifs uniquement en contexte permet de ne pas trop perturber des utilisateurs qui sont pour le moment inondés de signaux contradictoires : AI will either save or enslave us.
Et puisque l’on parle de ne pas trop perturber les habitudes des utilisateurs, je souhaiterais conclure cet article avec un dernier détail : celui de la monétisation. Comme expliqué en début d’article, les modèles génératifs sont très complexes à créer et couteux à faire tourner. Pour le moment, les différents services proposés sont gratuits, car financés par des investisseurs souhaitant se positionner sur ce marché à fort potentiel, mais il faudra bien un jour payer les salaires et les factures.
Ce sujet n’est d’ailleurs plus si tabou, car certains éditeurs commencent à l’aborder… et à faire grincer des dents : Gen-AI Search Engine Perplexity Has a Plan to Sell Ads. Entre le début de faillite de Stability et le projet d’insérer des publicités dans les réponses de Perplexity, c’est donc un très dur retour à la réalité pour des startups qui commencent à subir la pression de la rentabilité.
Au même titre que le cloud, l’IA est un marché potentiellement très juteux, mais qui nécessite des moyens et des investissements colossaux (ressources humaines, infrastructures techniques, soutien des gouvernements…) que seuls les géants numériques sont capables d’assumer. Tous les autres partent de zéro et ont un très long chemin à parcourir. Formulé autrement : au-delà du défi technique, le reste à faire est considérable, car les difficultés sont également d’ordre fonctionnel, ergonomique, commercial…
Ne vous y trompez pas : nous ne sommes pas dans un marché de conquête, mais de fidélisation. Les difficultés sont, à mon sens, trop nombreuses pour qu’une startup parvienne à sortir du lot et à convertir durablement des centaines de millions d’utilisateurs payants. Pour le moment, tout le monde a envie de croire qu’OpenAI est capable de bousculer l’ordre établi, mais ça reste une petite startup d’à peine 2.000 employés dans la Silicon Valley. Ce qu’ils ont accompli est remarquable, mais il en faut plus pour changer les habitudes des utilisateurs lambda.
Pour pouvoir convertir des milliards de mobinautes en assistonautes, il faudrait mettre au point des assistants numériques suffisamment puissants et simples à prendre en main pour remplacer les applications et moteurs de recherche. Une prouesse qui ne peut être réalisée qu’avec une excellente connaissance du profil et des habitudes des utilisateurs, ainsi qu’une compréhension fine du contexte d’usage. Et pour cela, il faut avoir la maitrise des terminaux sur lesquels sont exécutés ces assistants, un privilège réservé exclusivement aux acteurs historiques : Microsoft (Windows, Xbox), Apple (iOS, Mac) et Google (Android).
Ainsi, comme les assistants vocaux, les chatbots ne sont qu’une étape vers le prochain paradigme de l’outil informatique, celui des assistants personnels numériques. Un nouveau paradigme qui nécessitera de repenser l’ordinateur individuel, un sujet que j’aborderai dans mon prochain article.
Si vous souhaitez aider vos collaborateurs à comprendre et mieux anticiper les changements à venir liés à l’intelligence artificielle (nouveaux outils, nouvelles méthodes…) ou à évaluer leur niveau de maturité (confort numérique, acceptation du changement…), n’hésitez pas à me contacter pour en discuter.