Pourquoi parler à sa base de données ? La naissance d’Audiogami

Auteur

Ulrich Fischer

Date publication

June 23, 2025

Labels

Projet "maison"Transformation numériqueAudio

Pourquoi parler à sa base de données ? L’histoire de la naissance d’Audiogami

Cette session Open Research retrace la genèse, le développement et les perspectives de ce projet né au sein de Memoways. Audiogami s'inscrit dans la continuité de notre approche expérimentale: partir d'un besoin concret rencontré sur le terrain pour développer des solutions innovantes.

Découvrez comment Audiogami simplifie la collaboration en permettant d'interagir directement avec vos bases de données via la voix, structurant ainsi instantanément vos idées et tâches.

La vidéo du live Discord

Texte généré par l’IA à partir de la transcription vidéo, corrigé et complété manuellement

La problématique : Fluidifier l'interaction humain-machine

La genèse d'Audiogami part d'un constat simple mais récurrent dans nos missions d'accompagnement : comment faire adopter des outils numériques sophistiqués par des utilisateurs qui excellent dans la communication orale mais peinent dans les interactions avec les bases de données ?

Le problème identifié était double :

Des utilisateurs experts dans leur domaine mais en difficulté face au fait de devoir interagir avec des bases de données
Des blocages dans le partage d'informations importantes, créant des goulots d'étranglement organisationnels

L'intuition de la modalité vocale

La solution émergente s'appuyait sur une observation fondamentale: la voix est notre modalité d'interaction la plus naturelle.

Audiogami se définit comme "une interface de vérification générée spontanément basée sur une entrée audio ou textuelle dans le but de pré-formater les informations et ensuite de les rediriger vers d'autres applications."

La métaphore de l'origami

Le nom "Audiogami" n'est pas fortuit. Ulrich Fischer explique le choix : "La métaphore de ce que c'est qu'un origami, je trouve que ça fonctionne assez bien parce que d’entrer des données dans une base de données c'est de partir d'une page blanche. Ce qu'on doit faire, c'est facile à faire parce que c'est préplié - de manière ludique et “organique” on suit simplement une procédure, par les pliages. Après, on a un petit objet qui se révèle “magiquement” et qui a une valeur."

Cette métaphore illustre parfaitement l'expérience utilisateur recherchée: transformer une communication orale libre en données structurées, sans que l'utilisateur ait besoin de maîtriser la complexité technique sous-jacente.

Les trois phases d'évolution du prototype

Phase 1 : Les applications natives et leurs limitations

Le premier prototype d'Audiogami a débuté par une approche simple : l'utilisation d'applications d'enregistrement natives disponibles sur smartphones. Timo Schuler a expérimenté avec des applications comme ASR (Another Sound Recorder) sur Android et Sound Recorder Pro sur iOS, qui offraient des fonctionnalités d'enregistrement avancées et surtout la possibilité de déclencher des automatisations.

Cette première approche révéla rapidement ses limites fondamentales. Une fois l'enregistrement terminé, les utilisateurs se retrouvaient face à une "explosion combinatoire" de choix : email, WhatsApp, Notion, et autres destinations possibles. Cette complexité cognitive conduisait systématiquement à l'abandon du processus, les utilisateurs préférant revenir aux appels téléphoniques traditionnels.

Phase 2 : L'automatisation via cloud storage

La deuxième itération introduisit une première couche d'automatisation significative. Le workflow développé par Timo avec n8n comprenait les étapes suivantes :

Enregistrement automatique via applications mobiles spécialisées
Transfert automatisé vers OneDrive, Google Drive ou Dropbox
Récupération par depuis le service de stockage cloud
Transcription via OpenAI Whisper
Traitement intelligent par assistant GPT-4
Synthèse et extraction d'informations structurées
Stockage final dans Airtable avec données enrichies

Malgré cette automatisation poussée, un problème critique persistait : le décalage temporel entre l'action utilisateur et le retour d'information. Ce délai, même de quelques minutes, s'avérait fatal pour l'adoption utilisateur.

Phase 3 : La solution Telegram et le feedback immédiat

L'innovation décisive vint avec l'intégration de Telegram comme interface principale. Cette approche apportait plusieurs avantages cruciaux :

Interface familière similaire à WhatsApp, éliminant tout apprentissage
API permissive facilitant le développement de bots personnalisés
Feedback instantané rassurant l'utilisateur
Capture multimodale supportant audio, texte, images et vidéos

Facteur humain et adoption utilisateur

Les prototypes de Timo révèlent l'importance critique du facteur humain dans l'adoption technologique. Plusieurs enseignements émergent :

Feedback immédiat comme clé d'adoption : Le décalage temporel, même minimal, provoque l'abandon utilisateur
Interface familière supérieure à interface optimale : Telegram/WhatsApp préférés aux nouvelles interfaces
Validation humaine génératrice de confiance : L'utilisateur doit garder le contrôle final
Adaptation au contexte dynamique : Prise en compte de la mobilité et des changements de contexte

Vision technologique

L'ambition d'Audiogami dépasse la simple automatisation pour viser une "réhumanisation" de l'interaction humain-machine. Cette vision implique la création d'interfaces conversationnelles qui préservent la richesse de la communication humaine tout en bénéficiant de la puissance de traitement automatisé.

L'approche modulaire de N8N, combinée aux capacités d'IA moderne, permet de prototyper rapidement et précisément. Cependant, une fois qu’il s’agit de mettre à l’échelle, de gérer au quotidien ou de maintenir l’automation n8n, on arrive vite aux limites du low/no-code.

C’est pourquoi nous avons décidé de créer une API dédiée, qui permet de simplifier et d’abstraire la complexité technique, pour se concentrer sur une intégration technique simplifiée et des fonctionnalités de “human in the loop” optimisées.

Développement de l'API

Nicolas Goy, développeur principal, travaille actuellement sur la première version API d'Audiogami, qui permettra :

Simplification de l'architecture complexe en une seule brique technologique
Intégration facilitée dans des workflows existants
Performance optimisée grâce au développement bas niveau

Cas d'usage identifiés

L'équipe a cartographié de nombreux cas d'usage potentiels :

Secteur professionnel

Création de tâches en flux tendu
Tickets de support multimodaux (audio + vidéo)
Comptes-rendus de réunion automatisés
Transfert de connaissances d'experts

Secteur créatif et culturel

Équipes de tournage : génération de making-of
Théâtres : gestion technique en temps réel
Architectes : procès-verbaux de chantier

Secteur personnel

Second brain : capture d'idées spontanées
Généalogie familiale : préservation d'histoires orales
Création de contenu : billets de blog générés

Prototypes

Plusieurs démonstrateurs fonctionnels ont été développés :

Gestionnaire de tâches connecté à Notion
Générateur de billets de blog avec illustrations, basé sur Airtable
Interface de validation pour données extraites

Roadmap technique

Nous sommes en train d’implémenter le prototype n8n pour plusieurs clients, avec l’objectif de remplacer une partie de la complexité dans l’automation n8n par notre propre API.

Une fois que nous avons validé la mécanique et l’adoption par les premiers utilisateurs via des verticales spécifiques, nous allons nous démarrer le développement d’un “véritable” produit SaaS en marque blanche, pour les intégrateurs et agences digitales.

Nous sommes impatients de partager avec vous premières expérimentation de terrain et retours utilisateurs !

Ce billet a été utile ou intéressant ? Rejoins-nous sur Discord, pour suivre en live d’autres sessions d’Open Research.

Rejoindre la communauté MemoWays sur Discord