Ulrich Fischer
Pourquoi parler à sa base de données ? L’histoire de la naissance d’Audiogami
Cette session Open Research retrace la genèse, le développement et les perspectives de ce projet né au sein de Memoways. Audiogami s'inscrit dans la continuité de notre approche expérimentale: partir d'un besoin concret rencontré sur le terrain pour développer des solutions innovantes.
Découvrez comment Audiogami simplifie la collaboration en permettant d'interagir directement avec vos bases de données via la voix, structurant ainsi instantanément vos idées et tâches.
La vidéo du live Discord
La problématique : Fluidifier l'interaction humain-machine
La genèse d'Audiogami part d'un constat simple mais récurrent dans nos missions d'accompagnement : comment faire adopter des outils numériques sophistiqués par des utilisateurs qui excellent dans la communication orale mais peinent dans les interactions avec les bases de données ?
Le problème identifié était double :
- Des utilisateurs experts dans leur domaine mais en difficulté face au fait de devoir interagir avec des bases de données
- Des blocages dans le partage d'informations importantes, créant des goulots d'étranglement organisationnels
L'intuition de la modalité vocale
La solution émergente s'appuyait sur une observation fondamentale: la voix est notre modalité d'interaction la plus naturelle.
Audiogami se définit comme "une interface de vérification générée spontanément basée sur une entrée audio ou textuelle dans le but de pré-formater les informations et ensuite de les rediriger vers d'autres applications."
La métaphore de l'origami
Le nom "Audiogami" n'est pas fortuit. Ulrich Fischer explique le choix : "La métaphore de ce que c'est qu'un origami, je trouve que ça fonctionne assez bien parce que d’entrer des données dans une base de données c'est de partir d'une page blanche. Ce qu'on doit faire, c'est facile à faire parce que c'est préplié - de manière ludique et “organique” on suit simplement une procédure, par les pliages. Après, on a un petit objet qui se révèle “magiquement” et qui a une valeur."
Cette métaphore illustre parfaitement l'expérience utilisateur recherchée: transformer une communication orale libre en données structurées, sans que l'utilisateur ait besoin de maîtriser la complexité technique sous-jacente.
Les trois phases d'évolution du prototype
Phase 1 : Les applications natives et leurs limitations
Le premier prototype d'Audiogami a débuté par une approche simple : l'utilisation d'applications d'enregistrement natives disponibles sur smartphones. Timo Schuler a expérimenté avec des applications comme ASR (Another Sound Recorder) sur Android et Sound Recorder Pro sur iOS, qui offraient des fonctionnalités d'enregistrement avancées et surtout la possibilité de déclencher des automatisations.
Cette première approche révéla rapidement ses limites fondamentales. Une fois l'enregistrement terminé, les utilisateurs se retrouvaient face à une "explosion combinatoire" de choix : email, WhatsApp, Notion, et autres destinations possibles. Cette complexité cognitive conduisait systématiquement à l'abandon du processus, les utilisateurs préférant revenir aux appels téléphoniques traditionnels.
Phase 2 : L'automatisation via cloud storage
La deuxième itération introduisit une première couche d'automatisation significative. Le workflow développé par Timo avec n8n comprenait les étapes suivantes :
- Enregistrement automatique via applications mobiles spécialisées
- Transfert automatisé vers OneDrive, Google Drive ou Dropbox
- Récupération par depuis le service de stockage cloud
- Transcription via OpenAI Whisper
- Traitement intelligent par assistant GPT-4
- Synthèse et extraction d'informations structurées
- Stockage final dans Airtable avec données enrichies
Malgré cette automatisation poussée, un problème critique persistait : le décalage temporel entre l'action utilisateur et le retour d'information. Ce délai, même de quelques minutes, s'avérait fatal pour l'adoption utilisateur.
Phase 3 : La solution Telegram et le feedback immédiat
L'innovation décisive vint avec l'intégration de Telegram comme interface principale. Cette approche apportait plusieurs avantages cruciaux :
- Interface familière similaire à WhatsApp, éliminant tout apprentissage
- API permissive facilitant le développement de bots personnalisés
- Feedback instantané rassurant l'utilisateur
- Capture multimodale supportant audio, texte, images et vidéos
Facteur humain et adoption utilisateur
Les prototypes de Timo révèlent l'importance critique du facteur humain dans l'adoption technologique. Plusieurs enseignements émergent :
- Feedback immédiat comme clé d'adoption : Le décalage temporel, même minimal, provoque l'abandon utilisateur
- Interface familière supérieure à interface optimale : Telegram/WhatsApp préférés aux nouvelles interfaces
- Validation humaine génératrice de confiance : L'utilisateur doit garder le contrôle final
- Adaptation au contexte dynamique : Prise en compte de la mobilité et des changements de contexte
Vision technologique
L'ambition d'Audiogami dépasse la simple automatisation pour viser une "réhumanisation" de l'interaction humain-machine. Cette vision implique la création d'interfaces conversationnelles qui préservent la richesse de la communication humaine tout en bénéficiant de la puissance de traitement automatisé.
L'approche modulaire de N8N, combinée aux capacités d'IA moderne, permet de prototyper rapidement et précisément. Cependant, une fois qu’il s’agit de mettre à l’échelle, de gérer au quotidien ou de maintenir l’automation n8n, on arrive vite aux limites du low/no-code.
C’est pourquoi nous avons décidé de créer une API dédiée, qui permet de simplifier et d’abstraire la complexité technique, pour se concentrer sur une intégration technique simplifiée et des fonctionnalités de “human in the loop” optimisées.
Développement de l'API
Nicolas Goy, développeur principal, travaille actuellement sur la première version API d'Audiogami, qui permettra :
- Simplification de l'architecture complexe en une seule brique technologique
- Intégration facilitée dans des workflows existants
- Performance optimisée grâce au développement bas niveau
Cas d'usage identifiés
L'équipe a cartographié de nombreux cas d'usage potentiels :
Secteur professionnel
- Création de tâches en flux tendu
- Tickets de support multimodaux (audio + vidéo)
- Comptes-rendus de réunion automatisés
- Transfert de connaissances d'experts
Secteur créatif et culturel
- Équipes de tournage : génération de making-of
- Théâtres : gestion technique en temps réel
- Architectes : procès-verbaux de chantier
Secteur personnel
- Second brain : capture d'idées spontanées
- Généalogie familiale : préservation d'histoires orales
- Création de contenu : billets de blog générés
Prototypes
Plusieurs démonstrateurs fonctionnels ont été développés :
- Gestionnaire de tâches connecté à Notion
- Générateur de billets de blog avec illustrations, basé sur Airtable
- Interface de validation pour données extraites
Roadmap technique
Nous sommes en train d’implémenter le prototype n8n pour plusieurs clients, avec l’objectif de remplacer une partie de la complexité dans l’automation n8n par notre propre API.
Une fois que nous avons validé la mécanique et l’adoption par les premiers utilisateurs via des verticales spécifiques, nous allons nous démarrer le développement d’un “véritable” produit SaaS en marque blanche, pour les intégrateurs et agences digitales.
Nous sommes impatients de partager avec vous premières expérimentation de terrain et retours utilisateurs !
Ce billet a été utile ou intéressant ? Rejoins-nous sur Discord, pour suivre en live d’autres sessions d’Open Research.
Rejoindre la communauté MemoWays sur Discord