Depuis le lancement de ChatGPT, le tapage médiatique autour des modèles génératifs ne faiblit pas, d’autant plus qu’il est alimenté toutes les semaines avec la sortie de nombreux nouveaux modèles q…
Depuis le lancement de ChatGPT, le tapage médiatique autour des modèles génératifs ne faiblit pas, d’autant plus qu’il est alimenté toutes les semaines avec la sortie de nombreux nouveaux modèles qui sont systématiquement présentés comme révolutionnaires par leur éditeur (à l’époque on disait « leader sur son segment »). Si ces nouveautés sont bien réelles, il est en revanche plus compliqué d’en apprécier le potentiel, car la comparaison entre les services et modèles est plus subtile qu’on ne le pense (elle ne peut se limiter leur taille) et car les médias et spécialistes auto-proclamés cherchent plus à attirer l’attention qu’à aider les entreprises ou organisations à faire leur choix.
En synthèse :
- L’intelligence artificielle est une notion vague qui correspond à beaucoup de choses, ce qui explique en grande partie la confusion ambiante (chacun en a sa propre interprétation) ;
- Il y a une nécessité d’adopter un vocabulaire commun autour de l’IA pour bien appréhender les enjeux et mieux se comprendre ;
- L’IA est un marché très fragmenté avec de nombreux modèles (des bases de connaissances) et des services (des solutions payantes) ;
- Il n’est pas pertinent de comparer les chatbots avec les assistants numériques, car ils n’ont pas les mêmes capacités et ne rendent pas les mêmes services ;
- Il n’est pas non plus pertinent de comparer des modèles privés et publics, car la nouvelle règlementation européenne (AI Act) impose de la transparence que les éditeurs ne sont pas encore prêts à fournir.
Pas de trêve estivale pour l’IA : pas une semaine ne passe sans la publication d’une étude ou d’un nouveau modèle « révolutionnaire ». Cette semaine, c’est la plateforme de freelance Upfront qui publie une étude sur les attentes et l’appréhension de l’IA en entreprise : From Burnout to Balance: AI-Enhanced Work Models.
L’étude pointe du doigt un écart entre ce qu’attendent les patrons et les salariés : 81% reconnaissent exiger plus de travail de leurs équipes ces dernières années, mais 96% des patrons attendent de l’IA des gains de productivité (donc une forme de soulagement de la pression sur les équipes). Problème : 47% des salariés ne savent pas comment s’y prendre et 77% déclarent que l’IA leur fait perdre du temps (donc une pression accrue). 😬
Je ne saurais pas vous dire quel point de vue est le plus important, mais d’après mon interprétation empirique, 100% des sondés sont confus sur ce qu’est une IA et ce qu’elle peut faire pour eux. Et ils ne sont pas les seuls, car j’imagine que cette confusion existe également dans la tête de tous les usages du métro parisien qui sont exposés à des publicités vantant les mérites de l’IA pour tout faire (Formule1, trains, agriculture, R&D…), mais mieux.
Cette confusion ne peut clairement pas durer, car elle risque de biaiser durablement l’opinion publique sur l’intelligence artificielle. À commencer par sa compréhension.
Savez-vous réellement ce qu’est l’IA ?
J’ai déjà eu l’occasion de clarifier un certain nombre de choses sur l’intelligence artificielle et son évolution la plus récente avec les modèles génératifs : Mythes et réalités des IA génératives et Les IA génératives sont les nouveaux correcteurs orthographiques.
Malgré cet effort pédagogique, je constate au quotidien que les connaissances et l’appréhension de ce qu’est l’intelligence artificielle, à quoi elle peut nous servir et comment elle fonctionne restent dramatiquement faible. À la décharge du grand public ou des professionnels, l’IA est un vaste sujet, très intimidant, dont la compréhension est brouillée par les publications très approximatives des médias (qui usent et abusent de raccourcis et de facilités éditoriales que je juge inacceptables**), tandis que les discours des éditeurs sont très enthousiastes et en même temps beaucoup trop flous**. Je pense ne pas me tromper en écrivant que la compréhension de l’IA est en ce moment une mission quai-impossible pour qui n’a ni le temps, ni le courage, soit 99,99% de la population.
Aussi je vous propose de récapituler : l’IA n’est ni une technologie, ni une innovation, c’est un concept technologique, certainement pas un algorithme ou un outil prêt à l’emploi. L’IA est plus une idée qu’une technologie, c’est le principe d’utiliser des systèmes informatiques pour simuler l’intelligence humaine, notamment pour des tâches cognitives comme l’analyse, la déduction ou la création de contenus (L’IA est un concept, pas un produit).
Nous pouvons faire le parallèle avec le cloud computing qui désigne également un concept technologique (l’exploitation de ressources informatiques distantes), auquel sont associés des infrastructures (ex : AWS de Amazon, Cloud de Google, Azure de Microsoft…) et des services (ex : Dropbox, Google Drive, MS One Drive…).
La principale raison de la mécompréhension de ce qu’est l’intelligence artificielle est liée au fait que le terme « IA » désigne beaucoup (trop) de choses différentes :
- un fantasme culturel (ex : des films comme 2001 l’odyssée de l’espace ou Terminator) ;
- un domaine de recherche scientifique (qui englobe l’apprentissage automatique, l’apprentissage profond, l‘utilisation de réseaux de neurones artificiels…) ;
- des outils informatiques (ex : analyse de grands volumes de données) ;
- des services en ligne (ex : ChatGPT, Claude…) ;
- …
Parler d’intelligence artificielle sans préciser son contexte ou son usage revient à parler du numérique : un camp lexical beaucoup trop large, car tout le monde en a une compréhension / interprétation différente.
Le Parlement Européen parle de SIA, de « systèmes d’intelligence artificielle » qui est une approche lexicale bien plus pertinente :
L’IA désigne la possibilité pour une machine de reproduire des comportements liés aux humains, tels que le raisonnement, la planification et la créativité.
L’IA permet à des systèmes techniques de percevoir leur environnement, gérer ces perceptions, résoudre des problèmes et entreprendre des actions pour atteindre un but précis.
Les systèmes dotés d’IA sont capables d’adapter leurs comportements (plus ou moins) en analysant les effets produits par leurs actions précédentes, travaillant de manière autonome.
Cette définition est à la fois simple à comprendre et réaliste par rapport aux capacités des IA qui sont plus ou moins sophistiquées en fonction de l’ambition et des ressources à disposition des éditeurs.
Une vision et un vocabulaire commun pour mieux se comprendre
Ne pensez pas que je suis en train de pinailler pour trouver la meilleure définition, j’attire simplement votre attention sur le paradoxe actuel : tout le monde est d’accord pour dire que l’IA va révolutionner notre quotidien personnel et professionnel, mais personne ne s’embête à correctement définir l’objet et la nature de cette révolution. Partant du principe que l’IA a effectivement un gros potentiel disruptif (certains parlent de nouveau point d’inflexion de l’outil informatique : Steve Jobs knew the moment the future had arrived, it’s calling again), avoir les idées claires sur ce que c’est, ce que ça peut faire et comment ça peut le faire est plutôt une bonne chose.
Oui, je suis persuadé que nous sommes à la veille d’un changement de paradigme (cf. Du Web4 à la Société 5.0) et la nouvelle génération d’ordinateurs en est la première manifestation (cf. Une nouvelle ère de l’informatique s’ouvre avec les AI PC). Mais ce changement ne pourra s’opérer que si le grand public et les professionnels sont prêts, c’est-à-dire s’ils en comprennent la nature et les enjeux, ainsi que s’ils utilisent un vocabulaire commun pour mieux se comprendre.
À ce sujet, les lexiques sur l’IA ne manquent pas, aussi je vous suggère cette liste pour trouver celui qui correspond le mieux à votre besoin :
- Glossaire de l’intelligence artificielle par la CNIL (simple et accessible) ;
- Vocabulaire de l’intelligence artificielle du Ministère de l’Enseignement supérieur et de la Recherche (beaucoup plus formel) ;
- Glossaire de l’intelligence artificielle de l’Unesco (qui aborde des sujets plus vaste) ;
- Les termes de l’IA par l’Office québécois de la langue française (garantie sans anglicisme).
Et ici, une carte heuristique proposée par KnowMap :
Si la première étape préliminaire à l’adoption de l’IA est donc sa définition, la deuxième est la compréhension de sa mise en application. Comme expliqué plus haut : l’IA est un concept qu’il faut traduire ou interpréter pour en faire une brique technologique ou une solution mise à disposition des utilisateurs. Pour simplifier de longues explications, nous pouvons considérer qu’il y a trois grandes approches distinctes, mais complémentaires de « faire de l’IA », c’est-à-dire trois façons de mettre en application le principe d’intelligence artificielle :
- l’approche symbolique qui repose sur des règles et référentiels permettant de créer des modèles logiques que l’on retrouve dans les systèmes experts qui permettent d’automatiser des tâches à faible valeur ajoutée (ex : triage de messages) ;
- l’approche statistique qui repose sur des caractéristiques et associations pour décrire des données et créer des modèles discriminatifs que l’on retrouve dans les outils d’aide à la décision servant à analyser des grands volumes de données (ex : classification) ;
- l’approche probabiliste qui repose sur la distribution de probabilités et de suppositions pour créer des modèles génératifs qui sont au coeur des modèles de langage utilisés pour générer des contenus ou donner la parole aux chatbots.
Dans les deux premières approches, nous parlons de technologies à usages spécifiques, car les règles et référentiels utilisés pour créer les modèles sont spécifiques à un domaine (ex : banque, assurance, santé…) ; tandis qu’avec une approche probabiliste, nous parlons de technologies à usages généraux, car les modèles sont créés à partir de données d’entrainement très variées (ex : pages de Wikipedia, discussion sur Reddit, vidéos YouTube…) pour pouvoir correspondre à de nombreuses situations (cf. Il n’y aura pas d’IA généraliste, mais des IA pour des usages généraux).
Cette distinction dans les approches est essentielle à la compréhension des usages de l’IA, car elles mobilisent des moyens très différents et correspondent à des usages et objectifs divergents : l’automatisation pour les modèles logiques, l’analyse / prédiction pour les modèles discriminatifs et la génération / manipulation de contenus pour les modèles génératifs. Cette distinction est d’autant plus importante que les médias font l’impasse sur les approches symboliques et statistiques qui sont pourtant tout à fait légitimes et surtout parfaitement maitrisées.
Les modèles génératifs sont la nouvelle obsession des médias
Depuis son lancement à la fin de l’année 2022, ChatGPT a bénéficié d’une couverture médiatique sans précédent pour une technologie encore très jeune et immature. Ce coup de projecteur sur les modèles génératifs a fait sortir de l’ombre une cohorte de techno-prophètes qui se sont auto-proclamés les nouveaux guides de cette révolution technologique (cf. Des dangers du dogmatisme technologique), propageant des discours carrément irresponsables : L’avènement de l’IA est-il inéluctable et même souhaitable ?
De toute cette frénésie médiatique, ce qu’il est important de retenir est que ChatGPT est l’arbre qui cache la forêt, car il existe une multitude de modèles génératifs et de services qui reposent sur ces modèles. Soit, mais il faut bien reconnaitre que le « narratif » autour d’OpenAI fonctionne très bien : un laboratoire de Californie devenue une startup qui génère des milliards de $ de C.A. en à peine 5 ans, mais qui est pourtant très loin d‘être rentable (Why OpenAI Could Lose $5 Billion This Year), avec des pseudo-produits lancés dans la précipitation (OpenAI Just Released SearchGPT. It’s Already Error Prone).
La réalité que l’on omet de nous présenter est que nous sommes face à un marché extrêmement fragmenté avec des modèles avec des éditeurs de toutes tailles et ambitions, et des briques technologiques plus ou moins prêtes à l’emploi qui sont quasiment impossibles à comparer.
Autant la très large majorité des scientifiques et professionnels de l’IA avec qui j’échange sont très prudents dans leur appréhension des nouveaux modèles qui sortent toutes les semaines, autant les médias qui adorent la simplification s’en servent à outrance pour attirer l’attention de néophytes éberlués par la toute-puissance du dieu-machine. Ceci se traduit par un flot incessant d’annonces : à chaque semaine sa nouvelle vague de percées technologiques à grand renfort de chiffres qui sont tellement grands que nous ne savons pas les appréhender. Le nombre de paramètres (qui se compte maintenant en billiards) est ainsi devenu l’unité de référence pour comparer les modèles.
Il est grand temps d’apprendre à décortiquer ces annonces et à comprendre de quoi il est question.
Arrêtons de comparer ChatGPT à Gemini ou Copilot !
Mettons tout de suite les choses au point : Il n’est absolument pas possible de comparer ChatGPT à Copilot de Microsoft ou Gemini de Google, car ce sont des solutions technologiques qui ne poursuivent pas les mêmes objectifs et qui ne répondent pas aux mêmes impératifs. Il y a d’un côté un démonstrateur technologique (l’équivalent d’un concept car) servant à exposer le savoir-faire de son éditeur qui est un tout petit laboratoire de recherche domicilié en Californie, donc qui ne doit rendre de comptes à personne ; et de l’autre des produits censés répondre à des besoins immédiats à la fois pour les particuliers et pour les entreprises (l’équivalent d’une voiture de série), édité par des entreprises cotées en bourse et surveillées de très près par les régulateurs du monde entier.
Comparer ChatGPT et Copilot ou Gemini revient à comparer le dernier concept car de Renault (Trezor) avec la Clio (le modèle de voiture censé être le plus accessible pour Mr & Mme tout le monde et pour les professionnels). Vous conviendrez que ce n’est ni pertinent, ni professionnel. Et pourtant, nombreux sont les « experts en IA » qui se prête à cet exercice.
Les choses se compliquent dès que l’on regarde sous le capot de ces services, car ils sont motorisés par plusieurs modèles avec différentes versions. Rien que pour Gemini, nous avons une version gratuite (« Standard »), trois versions payantes (« Ultra », « Pro » et « Nano ») et des versions mobiles (« Flash »). Pour OpenAI, là aussi c’est complexe, car nous avons plusieurs versions de GPT (4, 4 turbo, 4o, 4o mini…).
Le plus simple pour expliquer ces subtilités est de parler de services et de modèles : OpenAI, Microsoft et Google proposent des services en ligne reposant sur l’IA à travers un chatbot pour le grand public (respectivement ChatGPT, Copilot et Gemini), ainsi que des versions payantes pour les professionnels (respectivement ChatGPT+, Copilot Pro, Gemini Pro). Chacun de ces services repose sur une série de modèles que l’on peut choisir en fonction de sa licence d’utilisation (accès gratuit ou payant).
Illustration avec l’offre d’Adobe : Firefly désigne un ensemble de modèles (que l’on peut tester à l’aide d’un démonstrateur en ligne accessible sur firefly.adobe.com). Firefly est l’appellation commerciale de la gamme d’outils reposant sur l’IA d’Adobe qui est intégrée aux différents logiciels (ex : Photoshop, Lightroom…) et services en ligne (ex : Adobe Express). Vous suivez ?
La première grosse différence vient donc de la finalité de la solution : ChatGPT est un démonstrateur, avec une version payante pour rentabiliser les frais de R&D et d’infrastructure, tandis que Copilot, Gemini ou Firefly sont des produits (cf. The AI Future Is Already Here, It’s Just Not Productized Yet).
Mais il n’y a pas que ça, car vous pourriez également citer les exemples de Claude ou de Perplexity qui se rapprochent plus d’un produit que d’un démonstrateur. Mais là où ça se complique encore, c’est qu’une même appellation commerciale (ex : « Gemini » ou « Copilot ») peut désigner à la fois un service en ligne et un assistant numérique. La principale différence est que les services en ligne comme les chatbots s’utilisent hors contexte (ils sont isolés dans une fenêtre de navigateur ou une application mobile), tandis que les assistants sont installés sur l’ordinateur ou le smartphone et peuvent s’aider des informations et données stockées en local, ainsi que ce à quoi ils ont accès dans le cloud : Chatbots et agents intelligents ne sont qu’une étape intermédiaire vers les assistants numériques.
Voici donc trois distinctions fondamentales qui empêchent de comparer de façon rigoureuse les IA entre elles :
- la taille et la nature de l’éditeur (laboratoire de recherche vs. multinationale cotée en bourse) ;
- la finalité de la solution (démonstrateur technique vs. produit grand public ou professionnel) ;
- la localisation et les droits d’accès (services en ligne vs. assistant installé en local).
Mais ce n’est pas tout, car il nous faut aussi prendre en compte la licence d’exploitation et le cadre d’utilisation.
Arrêtons aussi de comparer les modèles privés aux modèles publics
Pour parfaire mon argumentation, j’ajoute deux autres caractéristiques importantes à prendre en compte : la licence et le cadre d’utilisation.
Concernant la licence, précisons que les modèles dont on parle (GPT, Copilot, Gemini, Claude…) le plus sont des modèles privés sur lesquels on ne sait pas grand chose : ni l’origine des données d’entrainement, ni leur volumétrie, ni les capacités réelles. Dans la mesure où les systèmes d’intelligence artificielle sont officiellement régulés, du moins dans l’Union Européenne avec l’AI Act, l’absence de précisions sur ces points rend leur utilisation en théorie illégale, du moins jusqu’à ce qu’ils soient audités.
La seule alternative possible serait alors de se tourner vers les modèles publics, ceux dont on connait les données d’entraînement et dont certains partagent même les poids (les valeurs des synapses artificiels qui relient les neurones artificiels entre eux). Une alternative plutôt intéressante, car les performances des derniers modèles de chez Meta, Mistral, Cohere, Databricks ou xAI sont quasiment au niveau de celles des modèles privés : Meta releases the biggest and best open-source AI model yet et Mistral shocks with new open model Mistral Large 2, taking on Llama 3.1.
Il y a ici plusieurs choses à prendre en compte : d’une part le fait que vous ne soyez pas obligés d’utiliser un modèle sur son architecture technique de référence (donc de payer pour chaque utilisation), mais également la possibilité de choisir des versions compactes des modèles pour pouvoir limiter les frais d’exploitation : plus le modèle est petit et moins les inférences consomment d’énergie.
Pour vous aider à vous y retrouver dans tous les modèles et dans toutes ces versions, il existe un certain nombre d’évaluations et tableaux comparatifs pour les classer selon différents critères ou méthodes.
Je peux ainsi citer LLM Leaderboard de Artificial Analysis qui fait la moyenne des différents scores :
Open LLM Leaderboard de Hugging Face qui propose une approche équivalente, mais avec d’autres scores :
LMSYS Chatbot Arena Leaderboard qui prend en compte les retours de la communauté :
Ou encore Comparing Large Language Models Side by Side de AI Model Review qui permet de comparer les réponses à des prompts prédéfinis :
Tous ces tableaux comparatifs sont très intéressants, mais ils ne sont pas capables de vous garantir le choix du meilleur modèle. La raison est simple : aucun modèle générique (entrainé avec des données publiques) ne pourra jamais apporter un meilleur service qu’un modèle affiné ou renforcé à l’aide de données et contenus internes à votre entreprise ou organisation. Comprenez par là que ces études comparatives se font en laboratoire (dans un cadre universitaire), mais ne reflète pas les capacités d’un modèle ou d’un autre une fois adapté au contexte et aux contraintes de votre activité.
C’est comme de chercher à comparer une encyclopédie (un savoir générique) avec une référentiel métier (un savoir spécifique à une entreprise et un métier). Deux ressources complémentaires qui correspondent à des contextes d’usage différents. Partant de ce principe, il n’y a pas de bon ou mauvais modèle, uniquement des données de mauvaise qualité ou des phases d’entrainement / affinage / renforcement bâclées.
C’est là un enseignement très précieux : la pertinence d’un modèle est directement indexée sur la pertinence et la précision des données / contenus ayant servi à son entraînement ou son affinage. En ce sens, les modèles sont plus des ressources que des outils prêts à l’emploi.
L’IA est-elle un outil ou une ressource ? Oui !
Un outil est un dispositif utilisé pour exécuter une action spécifique (ex : Photoshop pour faire de la retouche de photo ou Descript pour éditer un podcast). Une ressource désigne en revanche tout élément pouvant être exploité pour accomplir un objectif (ex : un référentiel ou une base de données).
La distinction entre les deux est essentielle pour bien comprendre les différences entre ce qui nous est vendu comme de l’IA : il y a d’un côté des services en ligne qui sont des outils de travail prêts à l’emploi (ex : Firefly intégré à Adobe Express pour créer ou décliner des visuels, Copy.ai pour générer ou manipuler des textes à vocation publicitaire ou commerciale) ; et de l’autre, les modèles dont on se sert comme ressources pour créer ou enrichir des outils ou solutions. Il n’est donc pas logique de comparer modèles et services, car ils correspondent à des finalités différentes avec des usages plus ou moins sophistiqués.
Il n’est également pas très pertinent de comparer des modèles en fonction de critères quantitatifs (ex : le nombre de paramètres ou la taille de la fenêtre de contexte), car ces caractéristiques ne reflètent ou ne garantissent pas le niveau de service rendu. C’est comme de comparer des voitures en fonction de la puissance du moteur : une méthode très incomplète, car il y a de nombreux autres critères à prendre en compte (poids, consommation, confort, tenue de route…).
Je pense ne pas me tromper en écrivant que l’IA étant un domaine vaste, complexe et pointu, l’évaluation d’un service ou d’un modèle génératif devrait être laissé aux soins de professionnels, et non aux journalistes ou experts auto-proclamés. Cette évaluation ne peut décemment pas se faire sur la base de critères quantitatifs, mais sur la base d’expérimentations correspondant au contexte d’usage de votre entreprise ou organisation. Je place ainsi personnellement beaucoup plus d’espoirs dans les modèles spécialisés selon une tâche et un domaine que dans les modèles généralistes, quelle que que soit leur taille (cf. Writer’s new AI models are scary good at healthcare and finance tasks).
D’où l’importance des projets pilotes et des groupes de travail, d’autant plus sur un sujet aussi important, puisque que c’est bien d’un nouveau paradigme de l’outil informatique et de l’avenir du travail dont nous sommes en train de parler.
Partager :
- Cliquez pour partager sur Twitter(ouvre dans une nouvelle fenêtre)
- Cliquez pour partager sur LinkedIn(ouvre dans une nouvelle fenêtre)
- Cliquez pour partager sur Facebook(ouvre dans une nouvelle fenêtre)
- Cliquez pour partager sur Pocket(ouvre dans une nouvelle fenêtre)