Ulrich Fischer
On a longtemps cru que pour avoir des données structurées, il fallait forcer les gens dans des formulaires et des bases de données indigestes. Champs obligatoires, formats imposés, listes fermées.
Le problème : ce qui est vraiment utile — le contexte, l'intention, la subtilité, la qualité de la structuration — ne rentre que très difficilement dans des cases. Alors on le laisse de côté. Ou on le note "quelque part", dans un email, un doc, une note vocale qu'on ne retrouvera jamais.
Et si on pouvait parler librement, avec toutes les digressions et les nuances qu'on veut, et quand même obtenir des données structurées et exploitables à la sortie ?
C'est l'hypothèse qu'on teste avec Audiogami depuis presque une année maintenant.
Cette session Open Research fait suite au billet de juin 2025 qui présentait la genèse d'Audiogami. Aujourd'hui, nous partageons les apprentissages concrets de 6 mois de développement, de customer discovery et d'expérimentations.
Customer Discovery : valider le Product-Market Fit
Le problème de départ
Le constat qui guide le développement d'Audiogami reste inchangé : selon les études, 78% des informations électroniques d'une organisation sont stockées de façon non structurée. Emails, notes de réunion, PV, rapports PDF — tous ces documents sont bien compréhensibles pour un humain qui les lit, mais ne sont pas vraiment exploitables par les systèmes informatiques.
Ces informations ne peuvent pas alimenter directement les workflows automatisés, générer des insights ou déclencher des actions. Il manque les métadonnées essentielles et les relations entre données : dates, projets concernés, clients associés, qualificateurs.
15 entretiens sur 4 mois
Pour valider qu'Audiogami répond à un vrai problème, l'équipe composée de Timo Schuler et Ulrich Fischer a mené une quinzaine d'entretiens de découverte client avec des profils variés :
Partenaires potentiels :
- Agences et intégrateurs no-code
- Responsables d'outils informatiques en entreprise
Utilisateurs finaux :
- Entrepreneurs et indépendants
- Professions libérales
- Utilisateurs souhaitant gérer leur quotidien
Découvertes clés
Les intégrateurs ne connaissent souvent pas les vrais problèmes de leurs clients
Première surprise : la plupart des intégrateurs et agences ne sont pas aux côtés de leurs clients quand ceux-ci travaillent sur les systèmes mis en place. Ils ne savent pas exactement si les outils sont réellement utilisés, ni quels problèmes de consistance de données existent.
Le cas concret de l'onboarding
Un entretien récent illustre parfaitement le problème. Une entreprise de storytelling pour réseaux sociaux utilise un formulaire d'onboarding complexe généré par un outil de no-code. Les clients doivent rentrer dans des cases à cocher et menus déroulants pré-établis, mais leurs spécificités se perdent. Si la spécificité se perd dès l'onboarding, le output ne sera pas adéquat.
La dimension vocale dans l'onboarding permettrait de capturer des informations plus qualitatives, subjectives — voire contradictoires — qui enrichissent la compréhension du client.
La valeur perçue : capturer "à chaud"
Ce que les gens voient immédiatement comme valeur ajoutée, c'est la capture au moment où l'information est présente dans l'esprit. Les outils actuels génèrent un décalage entre le moment où l'information existe et le moment où elle est vraiment capturée et formalisée.
Plus le délai augmente, plus l'information se dégrade :
- Elle s'appauvrit en quantité (les détails s'effacent de la mémoire)
- Elle peut aussi se préciser avec le recul (on garde l'essentiel après digestion)
Avec Audiogami, on peut choisir : capturer à chaud pour préserver la masse d'informations, ou délayer pour obtenir une version plus raffinée.
Les démonstrateurs vibe-codés
L'approche : créativité et idéation
Pour explorer différentes expériences utilisateur, l'équipe a développé trois démonstrateurs en utilisant le vibe coding avec Bolt et Lovable. Chaque démonstrateur a été réalisé en une demi-journée.
Tous les démonstrateurs sont pour le moment (décembre 2025) en mode “playback”, donc sans possibilité d’utiliser sa propre voix; il s’agit principalement de démontrer la mécanique et l’expérience utilisateur, basé sur des données pré-existantes.
Ce qui est intéressant avec le vibe coding, c'est qu'il ne s'agit pas seulement de prototypage rapide. C'est aussi de l'idéation. Comme quand on génère une image par IA, il y a la beauté de l'arbitraire : on sait jamais exactement ce qu'il y aura dans le “paquet cadeau” à la sortie du prompt.
En donnant des textes conceptuels sur les enjeux de l’expérience utilisateur aux agents de développement, ceux-ci proposent des traductions interactives auxquelles on n'aurait pas pensé. L'IA interprète des idées abstraites et les transforme en pistes UX innovantes.
Démonstrateur 1 : Gestion de tâches
Le premier prototype montre les trois temps d'Audiogami :
- Transcription en temps réel pendant que l'utilisateur parle
- Extraction et remplissage d'un schéma (titre, projet, assigné, date, priorité) au fur et à mesure
- Aperçu global avant envoi à la base de données
La partie Human-in-the-Loop permet de modifier les informations extraites : cliquer sur la date ou la priorité pour ajuster. L'utilisateur garde le contrôle final avant validation.
Démonstrateur 2 : Feedback Survey
Ce démonstrateur fait d'une pierre deux coups :
Objectif 1 : Comprendre les besoins des clients potentiels d’Audiogami via un formulaire hybride qui mixe questions classiques et inputs vocaux.
Objectif 2 : Faire vivre une expérience Audiogami directement. Les utilisateurs racontent leurs problématiques par la voix plutôt que d'écrire.
À la sortie, la transcription est affichée avec la visualisation du traitement par l'IA. Puis une vidéo présente Audiogami, suivie d'une capture d'email pour le lead generation.
Démonstrateur 3 : Support client e-commerce
Le scénario : un magasin de chaussures en ligne. Un client a un problème avec sa commande.
L'interface suggère les informations à transmettre (numéro de commande, problème rencontré, contact avec le transporteur). Le client raconte naturellement son problème, comme s'il parlait à quelqu'un au téléphone.
Deux cas de figure :
- Toutes les informations sont extraites → validation directe, passage à l'étape suivante
- Des informations manquent → prompt supplémentaire ciblé ("Depuis quand et à quelle fréquence ?")
Ce démonstrateur inclut aussi le dashboard côté support, pour montrer l'expérience complète.
L'amélioration par rapport aux chatbots actuels est significative. Les chatbots de support sont souvent frustrants : il faut écrire, réécrire, s'adapter au registre du bot, puis souvent attendre qu'un humain demande les informations manquantes un jour plus tard.
Avec Audiogami, le client peut "off-loader" émotionnellement (parler quand on a un problème, ça soulage) tout en structurant directement l'information pour le support.
Le widget "La Plage"
L'expérience utilisateur
Le widget maison d’Audiogami, sorti il y a deux semaines, s'appelle "La Plage". Le contexte de démonstration utilise les tâches domestiques, mais le même principe s'applique à des contextes professionnels complexes : onboarding client, rapport de technicien terrain, PV de chantier d'architecte.
En temps réel :
- Gris : transcription instantanée mot par mot
- Blanc : transcription affinée par un deuxième moteur
Le système structure automatiquement en trois tâches distinctes avec descriptions et tags. L'utilisateur peut modifier les tags, puis envoyer vers les outils en aval — Bring! pour les courses, Notion pour les tâches.
Pour le moment, vu que c’est une toute première version encore très brute de décoffrage, nous partageons juste une capture d’écran, que voici:
Architecture technique : Small Language Models
Contrairement à beaucoup de solutions qui envoient tout à OpenAI, Audiogami utilise des Small Language Models (SLM) plutôt que des Large Language Models.
Les modèles tournent sur une carte graphique à 300 francs, hébergée localement. L'objectif est d'avoir une armée de petits SLM spécialisés pour différentes tâches : extraction de dates, identification de personnes, génération de descriptions, résumés.
Cette approche permet :
- Maîtrise totale du stack : captation vocale, transcription, structuration, câblage avec outils tiers
- Hébergement 100% Suisse : confidentialité garantie
- Adaptabilité métier : possibilité de créer des SOP (Standard Operating Procedures) qui encodent les workflows spécifiques d'un cabinet médical, d'architectes, d'avocats
Gamification prévue
Pour rendre l'expérience plus agréable que les formulaires traditionnels, plusieurs éléments de gamification sont en développement :
- Vagues réactives : quand on parle, des vagues arrivent au premier plan comme à la plage — c'est l'utilisateur qui est le "vent"
- Origamis qui se forment : au fur et à mesure qu'on remplit la base de données, des poissons se plient dans l'eau, des avions dans le ciel, des oiseaux derrière les nuages
- Bestiaire à remplir : chaque nouvelle entrée enrichit une collection d'origamis magiques
L'objectif : que les utilisateurs qui détestent remplir des formulaires et des bases de données puissent avoir plus de fun tout en étant plus efficaces.
Défis et apprentissages transversaux
La voix comme outil de clarification mentale
Une découverte inattendue : la voix force à amener de la clarté dans l'esprit d'une manière différente que l'écriture.
L'écriture permet de clarifier ses pensées, mais c'est un processus long — parfois trois semaines pour un billet de blog. Avec la voix, la vitesse impose une clarté rapide. On réfléchit en parlant, et le feedback structuré d'Audiogami aide à voir plus clair dans ses propres pensées.
C'est un side effect significatif : améliorer la clarté grâce à la modalité vocale, indépendamment du fait qu'on input des données dans une base.
"What good looks like"
Une référence citée pendant la session : pour que l'IA soit vraiment utile, il faut d'abord savoir à quoi ressemble le résultat souhaité. Si on ne sait pas ce qu'on veut atteindre — en termes de quantité ET de qualité de données — c'est difficile de faire les choses justes, que ce soit avec des LLM, des systèmes agentiques ou même de la programmation traditionnelle.
Audiogami permet de tâtonner par la voix, de voir un feedback structuré immédiat, et progressivement d'arriver à un résultat parfaitement structuré. Ce n'est pas seulement rajouter des inputs quantitativement, c'est monter la barre en termes de qualité.
La quadrature du cercle UX
Le gros défi actuel : créer une expérience utilisateur simple, sans trop d'informations en même temps, tout en permettant de mettre à jour des informations en temps réel (vocalement ou par le geste), avec un maximum de flexibilité et de précision.
Simplicité, flexibilité, précision — c'est la quadrature du cercle. Peut-être qu'être à la plage détend suffisamment pour y arriver… ? Vous nous direz.
💡 Takeaways pratiques
1. Testez le décalage temporel dans vos propres workflows
Capturez la même information immédiatement puis une heure plus tard. Comparez la richesse et la précision. Ce test simple révèle souvent des pertes d'information significatives dans les processus actuels.
2. Utilisez le vibe coding comme outil d'idéation
Ne donnez pas seulement des spécifications techniques aux agents de développement. Essayez des billets de blog conceptuels, des métaphores, des approches philosophiques. L'interprétation par l'IA peut générer des pistes UX surprenantes.
3. Explorez les Small Language Models pour vos cas d'usage spécifiques
Pour des tâches précises (extraction de dates, classification, structuration), des SLM spécialisés peuvent remplacer les LLM avec des coûts et une latence réduits — et une confidentialité renforcée.
4. Le feedback immédiat génère la confiance
Dans toute interface vocale ou de saisie, montrez immédiatement ce qui a été compris. Le décalage, même de quelques secondes, érode la confiance et l'adoption.
Prochaines étapes
Où nous en sommes :
- Widget "La Plage" en phase de prototypage et de test
- Stack technologique maîtrisé par Gamilab, hébergé en Suisse
Q1 2026 :
- Projets pilotes et proof of concept avec différents prospects et partenaires
- SDK et API du moteur de structuration disponibles pour les développeurs
Ce que nous cherchons :
- 3-5 partenaires pilotes : agences, intégrateurs qui voient un cas d'usage pour leurs clients
- Clients directs : cabinets d'architectes, d'avocats, entreprises souhaitant fluidifier leur saisie de données
- Développeurs curieux d'intégrer Audiogami dans leurs applications
Cette exploration de 6 mois confirme une intuition : la voix est la modalité d'interaction la plus naturelle, et l'IA permet enfin de transformer cette naturalité en données exploitables.
Si vous souhaitez expérimenter des approches similaires dans votre contexte, rejoignez nos prochains lives Discord ou contactez-nous pour discuter d'un projet pilote.
Rejoindre la communauté MemoWays sur Discord
L'innovation naît de l'expérimentation partagée — à vous de jouer !
🔗 Références et ressources citées
Outils et plateformes
- Bolt — Plateforme de vibe coding utilisée pour les démonstrateurs
- Lovable — Plateforme de vibe coding alternative
- Airtable — Base de données no-code pour la structuration
- Notion — Outil de collaboration et gestion de tâches
- Bring! — Application de liste de courses mentionnée pour l'intégration
- Telegram — Interface familière pour l'adoption (phase précédente)
- Whisper (OpenAI) — Moteur de transcription
Projets Memoways
- Audiogami — Page du projet
- Billet précédent : Pourquoi parler à sa base de données ? — Genèse et métaphore de l'origami
Concepts mentionnés
- Small Language Models (SLM) — Alternative aux LLM pour tâches spécialisées
- Human-in-the-Loop — Validation humaine avant envoi des données
- SOP (Standard Operating Procedures) — Encodage des workflows métiers spécifiques