Audiogami : des démonstrateurs et un widget qui vous emmène à la plage

Auteur

Ulrich Fischer

Date publication

December 18, 2025

Labels

Projet "maison"AudioVibe Coding

On a longtemps cru que pour avoir des données structurées, il fallait forcer les gens dans des formulaires et des bases de données indigestes. Champs obligatoires, formats imposés, listes fermées.

Le problème : ce qui est vraiment utile — le contexte, l'intention, la subtilité, la qualité de la structuration — ne rentre que très difficilement dans des cases. Alors on le laisse de côté. Ou on le note "quelque part", dans un email, un doc, une note vocale qu'on ne retrouvera jamais.

Et si on pouvait parler librement, avec toutes les digressions et les nuances qu'on veut, et quand même obtenir des données structurées et exploitables à la sortie ?

C'est l'hypothèse qu'on teste avec Audiogami depuis presque une année maintenant.

Cette session Open Research fait suite au billet de juin 2025 qui présentait la genèse d'Audiogami. Aujourd'hui, nous partageons les apprentissages concrets de 6 mois de développement, de customer discovery et d'expérimentations.

Customer Discovery : valider le Product-Market Fit

Le problème de départ

Le constat qui guide le développement d'Audiogami reste inchangé : selon les études, 78% des informations électroniques d'une organisation sont stockées de façon non structurée. Emails, notes de réunion, PV, rapports PDF — tous ces documents sont bien compréhensibles pour un humain qui les lit, mais ne sont pas vraiment exploitables par les systèmes informatiques.

Ces informations ne peuvent pas alimenter directement les workflows automatisés, générer des insights ou déclencher des actions. Il manque les métadonnées essentielles et les relations entre données : dates, projets concernés, clients associés, qualificateurs.

15 entretiens sur 4 mois

Pour valider qu'Audiogami répond à un vrai problème, l'équipe composée de Timo Schuler et Ulrich Fischer a mené une quinzaine d'entretiens de découverte client avec des profils variés :

Partenaires potentiels :

Agences et intégrateurs no-code
Responsables d'outils informatiques en entreprise

Utilisateurs finaux :

Entrepreneurs et indépendants
Professions libérales
Utilisateurs souhaitant gérer leur quotidien

Découvertes clés

Les intégrateurs ne connaissent souvent pas les vrais problèmes de leurs clients

Première surprise : la plupart des intégrateurs et agences ne sont pas aux côtés de leurs clients quand ceux-ci travaillent sur les systèmes mis en place. Ils ne savent pas exactement si les outils sont réellement utilisés, ni quels problèmes de consistance de données existent.

Le cas concret de l'onboarding

Un entretien récent illustre parfaitement le problème. Une entreprise de storytelling pour réseaux sociaux utilise un formulaire d'onboarding complexe généré par un outil de no-code. Les clients doivent rentrer dans des cases à cocher et menus déroulants pré-établis, mais leurs spécificités se perdent. Si la spécificité se perd dès l'onboarding, le output ne sera pas adéquat.

La dimension vocale dans l'onboarding permettrait de capturer des informations plus qualitatives, subjectives — voire contradictoires — qui enrichissent la compréhension du client.

La valeur perçue : capturer "à chaud"

Ce que les gens voient immédiatement comme valeur ajoutée, c'est la capture au moment où l'information est présente dans l'esprit. Les outils actuels génèrent un décalage entre le moment où l'information existe et le moment où elle est vraiment capturée et formalisée.

Plus le délai augmente, plus l'information se dégrade :

Elle s'appauvrit en quantité (les détails s'effacent de la mémoire)
Elle peut aussi se préciser avec le recul (on garde l'essentiel après digestion)

Avec Audiogami, on peut choisir : capturer à chaud pour préserver la masse d'informations, ou délayer pour obtenir une version plus raffinée.

Les démonstrateurs vibe-codés

L'approche : créativité et idéation

Pour explorer différentes expériences utilisateur, l'équipe a développé trois démonstrateurs en utilisant le vibe coding avec Bolt et Lovable. Chaque démonstrateur a été réalisé en une demi-journée.

Tous les démonstrateurs sont pour le moment (décembre 2025) en mode “playback”, donc sans possibilité d’utiliser sa propre voix; il s’agit principalement de démontrer la mécanique et l’expérience utilisateur, basé sur des données pré-existantes.

Ce qui est intéressant avec le vibe coding, c'est qu'il ne s'agit pas seulement de prototypage rapide. C'est aussi de l'idéation. Comme quand on génère une image par IA, il y a la beauté de l'arbitraire : on sait jamais exactement ce qu'il y aura dans le “paquet cadeau” à la sortie du prompt.

En donnant des textes conceptuels sur les enjeux de l’expérience utilisateur aux agents de développement, ceux-ci proposent des traductions interactives auxquelles on n'aurait pas pensé. L'IA interprète des idées abstraites et les transforme en pistes UX innovantes.

Démonstrateur 1 : Gestion de tâches

Le premier prototype montre les trois temps d'Audiogami :

Transcription en temps réel pendant que l'utilisateur parle
Extraction et remplissage d'un schéma (titre, projet, assigné, date, priorité) au fur et à mesure
Aperçu global avant envoi à la base de données

La partie Human-in-the-Loop permet de modifier les informations extraites : cliquer sur la date ou la priorité pour ajuster. L'utilisateur garde le contrôle final avant validation.

👉

Démonstrateur 2 : Feedback Survey

Ce démonstrateur fait d'une pierre deux coups :

Objectif 1 : Comprendre les besoins des clients potentiels d’Audiogami via un formulaire hybride qui mixe questions classiques et inputs vocaux.

Objectif 2 : Faire vivre une expérience Audiogami directement. Les utilisateurs racontent leurs problématiques par la voix plutôt que d'écrire.

À la sortie, la transcription est affichée avec la visualisation du traitement par l'IA. Puis une vidéo présente Audiogami, suivie d'une capture d'email pour le lead generation.

👉

Démonstrateur 3 : Support client e-commerce

Le scénario : un magasin de chaussures en ligne. Un client a un problème avec sa commande.

L'interface suggère les informations à transmettre (numéro de commande, problème rencontré, contact avec le transporteur). Le client raconte naturellement son problème, comme s'il parlait à quelqu'un au téléphone.

Deux cas de figure :

Toutes les informations sont extraites → validation directe, passage à l'étape suivante
Des informations manquent → prompt supplémentaire ciblé ("Depuis quand et à quelle fréquence ?")

Ce démonstrateur inclut aussi le dashboard côté support, pour montrer l'expérience complète.

L'amélioration par rapport aux chatbots actuels est significative. Les chatbots de support sont souvent frustrants : il faut écrire, réécrire, s'adapter au registre du bot, puis souvent attendre qu'un humain demande les informations manquantes un jour plus tard.

Avec Audiogami, le client peut "off-loader" émotionnellement (parler quand on a un problème, ça soulage) tout en structurant directement l'information pour le support.

👉

Le widget "La Plage"

L'expérience utilisateur

Le widget maison d’Audiogami, sorti il y a deux semaines, s'appelle "La Plage". Le contexte de démonstration utilise les tâches domestiques, mais le même principe s'applique à des contextes professionnels complexes : onboarding client, rapport de technicien terrain, PV de chantier d'architecte.

En temps réel :

Gris : transcription instantanée mot par mot
Blanc : transcription affinée par un deuxième moteur

Le système structure automatiquement en trois tâches distinctes avec descriptions et tags. L'utilisateur peut modifier les tags, puis envoyer vers les outils en aval — Bring! pour les courses, Notion pour les tâches.

Pour le moment, vu que c’est une toute première version encore très brute de décoffrage, nous partageons juste une capture d’écran, que voici:

👉

Architecture technique : Small Language Models

Contrairement à beaucoup de solutions qui envoient tout à OpenAI, Audiogami utilise des Small Language Models (SLM) plutôt que des Large Language Models.

Les modèles tournent sur une carte graphique à 300 francs, hébergée localement. L'objectif est d'avoir une armée de petits SLM spécialisés pour différentes tâches : extraction de dates, identification de personnes, génération de descriptions, résumés.

Cette approche permet :

Maîtrise totale du stack : captation vocale, transcription, structuration, câblage avec outils tiers
Hébergement 100% Suisse : confidentialité garantie
Adaptabilité métier : possibilité de créer des SOP (Standard Operating Procedures) qui encodent les workflows spécifiques d'un cabinet médical, d'architectes, d'avocats

Gamification prévue

Pour rendre l'expérience plus agréable que les formulaires traditionnels, plusieurs éléments de gamification sont en développement :

Vagues réactives : quand on parle, des vagues arrivent au premier plan comme à la plage — c'est l'utilisateur qui est le "vent"
Origamis qui se forment : au fur et à mesure qu'on remplit la base de données, des poissons se plient dans l'eau, des avions dans le ciel, des oiseaux derrière les nuages
Bestiaire à remplir : chaque nouvelle entrée enrichit une collection d'origamis magiques

L'objectif : que les utilisateurs qui détestent remplir des formulaires et des bases de données puissent avoir plus de fun tout en étant plus efficaces.

👉

Défis et apprentissages transversaux

La voix comme outil de clarification mentale

Une découverte inattendue : la voix force à amener de la clarté dans l'esprit d'une manière différente que l'écriture.

L'écriture permet de clarifier ses pensées, mais c'est un processus long — parfois trois semaines pour un billet de blog. Avec la voix, la vitesse impose une clarté rapide. On réfléchit en parlant, et le feedback structuré d'Audiogami aide à voir plus clair dans ses propres pensées.

C'est un side effect significatif : améliorer la clarté grâce à la modalité vocale, indépendamment du fait qu'on input des données dans une base.

"What good looks like"

Une référence citée pendant la session : pour que l'IA soit vraiment utile, il faut d'abord savoir à quoi ressemble le résultat souhaité. Si on ne sait pas ce qu'on veut atteindre — en termes de quantité ET de qualité de données — c'est difficile de faire les choses justes, que ce soit avec des LLM, des systèmes agentiques ou même de la programmation traditionnelle.

Audiogami permet de tâtonner par la voix, de voir un feedback structuré immédiat, et progressivement d'arriver à un résultat parfaitement structuré. Ce n'est pas seulement rajouter des inputs quantitativement, c'est monter la barre en termes de qualité.

La quadrature du cercle UX

Le gros défi actuel : créer une expérience utilisateur simple, sans trop d'informations en même temps, tout en permettant de mettre à jour des informations en temps réel (vocalement ou par le geste), avec un maximum de flexibilité et de précision.

Simplicité, flexibilité, précision — c'est la quadrature du cercle. Peut-être qu'être à la plage détend suffisamment pour y arriver… ? Vous nous direz.

👉

💡 Takeaways pratiques

1. Testez le décalage temporel dans vos propres workflows

Capturez la même information immédiatement puis une heure plus tard. Comparez la richesse et la précision. Ce test simple révèle souvent des pertes d'information significatives dans les processus actuels.

2. Utilisez le vibe coding comme outil d'idéation

Ne donnez pas seulement des spécifications techniques aux agents de développement. Essayez des billets de blog conceptuels, des métaphores, des approches philosophiques. L'interprétation par l'IA peut générer des pistes UX surprenantes.

3. Explorez les Small Language Models pour vos cas d'usage spécifiques

Pour des tâches précises (extraction de dates, classification, structuration), des SLM spécialisés peuvent remplacer les LLM avec des coûts et une latence réduits — et une confidentialité renforcée.

4. Le feedback immédiat génère la confiance

Dans toute interface vocale ou de saisie, montrez immédiatement ce qui a été compris. Le décalage, même de quelques secondes, érode la confiance et l'adoption.

👉

Prochaines étapes

Où nous en sommes :

Widget "La Plage" en phase de prototypage et de test
Stack technologique maîtrisé par Gamilab, hébergé en Suisse

Q1 2026 :

Projets pilotes et proof of concept avec différents prospects et partenaires
SDK et API du moteur de structuration disponibles pour les développeurs

Ce que nous cherchons :

3-5 partenaires pilotes : agences, intégrateurs qui voient un cas d'usage pour leurs clients
Clients directs : cabinets d'architectes, d'avocats, entreprises souhaitant fluidifier leur saisie de données
Développeurs curieux d'intégrer Audiogami dans leurs applications

Cette exploration de 6 mois confirme une intuition : la voix est la modalité d'interaction la plus naturelle, et l'IA permet enfin de transformer cette naturalité en données exploitables.

Si vous souhaitez expérimenter des approches similaires dans votre contexte, rejoignez nos prochains lives Discord ou contactez-nous pour discuter d'un projet pilote.

Rejoindre la communauté MemoWays sur Discord

L'innovation naît de l'expérimentation partagée — à vous de jouer !

👉

🔗 Références et ressources citées

Outils et plateformes

Bolt — Plateforme de vibe coding utilisée pour les démonstrateurs
Lovable — Plateforme de vibe coding alternative
Airtable — Base de données no-code pour la structuration
Notion — Outil de collaboration et gestion de tâches
Bring! — Application de liste de courses mentionnée pour l'intégration
Telegram — Interface familière pour l'adoption (phase précédente)
Whisper (OpenAI) — Moteur de transcription

Projets Memoways

Audiogami — Page du projet
Billet précédent : Pourquoi parler à sa base de données ? — Genèse et métaphore de l'origami

Concepts mentionnés

Small Language Models (SLM) — Alternative aux LLM pour tâches spécialisées
Human-in-the-Loop — Validation humaine avant envoi des données
SOP (Standard Operating Procedures) — Encodage des workflows métiers spécifiques