"Parle à AVA" : Quand l'intelligence artificielle rencontre la création cinématographique

Auteur

Claire Jousson et Ulrich Fischer

Date publication

June 26, 2025

Labels

Projet "maison"Vidéo

Le sous titre du billet

Dans le cadre de nos sessions Open Research sur Discord (rejoignez notre communauté !), Memoways explore les frontières entre technologie et art.

À travers cette session du 25 juin 2025, nous présentons "Parle à AVA", un projet d'une expérience cinématographique interactive conversationnelle qui repousse les limites de la narration traditionnelle grâce à l'intelligence artificielle open source.

La vidéo du live Discord

Texte généré par l’IA à partir de la transcription vidéo, corrigé et complété manuellement

Le contexte créatif : du thriller dystopique à l'interaction réflexive

"Parle à AVA" est né d'un projet cinématographique porté par Romed Wyder, cinéaste suisse expérimenté travaillant actuellement sur son cinquième long métrage "Où est AVA?". Ce thriller dystopique low budget raconte l'histoire d'une famille qui se réfugie à la montagne pour échapper à un nouveau virus provoquant la "protogénie" - une transformation des femmes en hommes.

Le scénario, écrit par la scénariste iranienne Nassim Ahmadpour, est construit comme un thriller travaillant avec la paranoïa et la peur. Cependant, les contraintes narratives du format cinématographique traditionnel ont rapidement révélé leurs limites pour explorer toutes les dimensions plus profondes et intrigantes de cet univers complexe.

C'est de cette frustration créative qu'est née l'idée de "Parle à AVA" : permettre au spectateur de dialoguer directement avec les quatre personnages principaux (la mère, le père - Max, Ava et son frère) pour explorer en profondeur les thèmes que le format classique ne permet pas d'approfondir, comme "Est-ce que l'amour est plus fort que le genre ?"

Premier prototype et les limitations des solutions commerciales

L'équipe de Memoways, menée par Ulrich Fischer, a développé un premier prototype en octobre-novembre 2024 avec le soutien de l'Office fédéral de la culture. Ce prototype initial combinait Heygen (un outil de génération d'avatars en temps réel) avec OpenAI via des assistants personnalisés, permettant de maîtriser tant la “direction d’acteur” que la mécanique narrative et l’expérience utilisateur.

Cependant, le projet s'est heurté à un obstacle majeur : la censure automatique d'OpenAI. Les algorithmes de modération ont détecté les mots-clés "enfant", "transformation sexuelle" et "violence", déclenchant des alertes du côté d’OpenAI. Malgré le caractère purement artistique du projet - et que nous avons arrêté d’utiliser ces combinaisons de mots - OpenAI a coupé notre accès à leur API en février 2025, contraignant l'équipe à explorer des alternatives open source.

Nous avons alors fait appel à un spécialiste de l’IA open source.

Jonathan O'Hear : l'artiste-technologue au cœur du projet

Jonathan O'Hear, artiste multidisciplinaire spécialisé dans l'art numérique et l'intelligence artificielle, a rejoint le projet pour apporter son expertise unique. Fondateur du festival AiiA (laboratoire expérimental autour des questions sociétales de l'IA), Jonathan développe depuis 2017 des projets artistiques innovants explorant notre rapport aux entités non-humaines.

Sa philosophie - "accepter l'entité non-humaine plutôt que de vouloir la comprendre avant de s'y confronter" - correspond parfaitement aux besoins du projet "Parle à AVA". Cette approche consiste à accepter une certaine forme de perte de maîtrise et de perfection “humaine” et s'y confronter plutôt que de tomber dans le réflexe occidental de vouloir tout comprendre avant d'expérimenter.

Pour pouvoir entraîner nos propres modèles et installer des solutions open source, nous avons dû trouver une offre de GPU’s dans le cloud.

Exoscale : l'infrastructure cloud européenne

Exoscale, fournisseur de cloud européen basé en Suisse et membre du groupe A1 Digital, s'est imposé comme le partenaire idéal.

Fondée en 2011, cette plateforme offre plusieurs avantages cruciaux pour le projet:

Souveraineté européenne : Conformité RGPD stricte et données hébergées exclusivement en Europe
Transparence tarifaire : Facturation à la seconde sans coûts cachés, permettant un contrôle précis des dépenses
Performance GPU : Accès à des serveurs équipés de cartes NVIDIA performantes (A40, V100, P100)
Support local : Assistance en français et crédits de test gratuits pour démarrer les expérimentations. Nous tenons à remercier au passage nos partenaires directs à Exoscale pour leur professionnalisme, leur curiosité et intérêt dans notre projet.

L'offre GPU d'Exoscale pour l'IA

Exoscale propose une gamme complète de serveurs GPU spécialement conçus pour les applications d'intelligence artificielle. L'infrastructure comprend des GPU NVIDIA de dernière génération, avec des options allant du GPU V100 Small au GPU A40 Medium, permettant une scalabilité adaptée aux besoins de développement et de production.

La plateforme se distingue par sa facilité d'utilisation et son approche européenne de la confidentialité des données.

Infrastructure optimisée sur Arch Linux

Jonathan O'Hear a travaillé en étroite collaboration avec Nicolas Goy, développeur principal de Memoways, pour construire une architecture sophistiquée. Nicolas Goy a préparé des conteneurs Docker spécialisés sur Arch Linux, permettant des gains de performance jusqu'à 30% par rapport aux systèmes Ubuntu standard.

Cette optimisation présente ses propres défis : la plupart des outils d'IA sont optimisés pour Ubuntu, nécessitant des adaptations complexes pour Arch Linux. Nous avons pu documenter tout ce processus technique, et allons mettre à disposition nos enseignements par la suite.

Heygem Open Source : la solution de génération d'avatars

L'équipe utilise Heygem open source, une version libre de l'outil de génération d'avatars développée par des chercheurs chinois. Cette solution se compose de trois conteneurs Docker séparés gérant respectivement :

Génération vidéo : Création de l'avatar animé avec expressions faciales
Text-to-speech (TTS) : Conversion du texte en parole avec la voix du personnage
Automatic Speech Recognition (ASR) : Reconnaissance vocale automatique

Heygem open source représente une alternative démocratique aux solutions propriétaires, permettant une personnalisation complète et un contrôle total sur le processus de génération. L'interface, initialement en chinois, s'améliore continuellement avec davantage de contenu en anglais.

Objectifs et défis du fine-tuning

L'objectif principal consiste à créer un modèle qui parle exactement comme les personnages du film. Les modèles standards ne connaissent pas les protagonistes, puisque le film n'est pas encore sorti, rendant impossible un simple "prompting" d'un modèle existant.

Le processus de fine-tuning implique plusieurs étapes cruciales:

Extraction des données : Récupération des dialogues et descriptions du scénario
Génération synthétique : Création de données supplémentaires via IA pour enrichir le dataset
Validation humaine : Vérification et correction systématique par l'équipe créative
Entraînement itératif : Réentraînement progressif du modèle avec les nouvelles données validées

Les défis techniques identifiés

Le fine-tuning présente plusieurs défis spécifiques :

Manque de données d'origine : Un scénario contient peu d'exemples de dialogue pour un personnage
Besoin de milliers d'exemples : Le fine-tuning efficace nécessite des datasets conséquents
Validation précise : Chaque dialogue généré doit être validé par l’équipe de réalisation pour maintenir la cohérence du personnage
Processus circulaire : Le modèle génère des données qui sont ensuite validées pour réentraîner le modèle

Pipeline technique complet et expérience utilisateur

Jonathan a conçu un pipeline technique sophistiqué transformant une simple question en interaction vidéo réaliste :

Input utilisateur : Question textuelle ou vocale capturée via l'interface
Analyse LLM : Compréhension contextuelle et génération de réponse personnalisée
Synthèse vocale : Conversion texte-parole avec la voix spécifique du personnage
Génération vidéo : Création de l'avatar animé en temps réel avec expressions faciales
Output : Vidéo synchronisée avec mouvements de lèvres réalistes

État actuel des tests et résultats

Les tests effectués révèlent des résultats prometteurs mais avec des défis à surmonter :

Succès techniques :

Avatar créé avec succès à partir d'une vidéo de 2 minutes de Max
Génération de réponses fonctionnelle avec cohérence du personnage
Synchronisation labiale de base opérationnelle

Défis identifiés :

Latence : Temps de traitement encore trop important pour une interaction fluide en temps réel
Adaptation linguistique : Le modèle text-to-speech mélange anglais et français, produisant un accent anglophone sur du texte français
Expressions faciales : Parfois exagérées, nécessitant un ajustement des paramètres de la vidéo source
Optimisation : Besoin d'optimisation pour réduire les coûts et améliorer les performances

Avantages de l'approche open source

L'expérience du projet illustre parfaitement les différences entre les approches commerciales et open source. Les solutions commerciales offrent une facilité d'usage remarquable mais au prix d'un contrôle créatif limité et de contraintes de censure arbitraires.

À l'inverse, les solutions open source demandent un investissement technique plus important mais garantissent :

Liberté créative totale : Absence de censure automatique permettant d'explorer tous les thèmes artistiques
Contrôle complet : Maîtrise de chaque étape du processus d'entraînement et de génération
Coûts maîtrisés : Facturation transparente et prévisible des ressources utilisées
Contribution communautaire : Documentation et partage des apprentissages avec la communauté

Documentation et transmission des savoirs

Jonathan documente méticuleusement son travail sur Exoscale, créant un mode d'emploi détaillé pour l'installation et l'utilisation d'Heygem open source. Cette approche transparente permettra à d'autres créateurs de bénéficier des apprentissages et d'éviter les écueils rencontrés.

Perspectives et mise en perspective du projet

Le projet "Parle à AVA" illustre parfaitement la philosophie Open Research de Memoways : documenter publiquement les échecs, les découvertes et les solutions tout en repoussant les limites créatives. Cette approche transparente contribue activement à l'écosystème open source et inspire d'autres créateurs à explorer ces nouvelles frontières technologiques.

L'avenir du cinéma interactif

Ce projet ouvre des perspectives fascinantes pour l'industrie cinématographique :

Narration émergente : Histoires qui s'adaptent dynamiquement aux interactions du spectateur
Personnalisation : Expériences uniques et sur-mesure pour chaque utilisateur
Démocratisation : Outils technologiques accessibles aux créateurs indépendants grâce à l'open source
Préservation culturelle : Maintien de la diversité narrative face aux algorithmes uniformisants des plateformes commerciales

Vers une nouvelle forme d'expression artistique

"Parle à AVA" représente plus qu'un simple projet technique ou artistique: c'est l'émergence d'une nouvelle forme d'expression artistique questionnant fondamentalement nos rapports à la narration, à l'empathie et à l'intelligence artificielle.

L'avenir du cinéma se dessine peut-être ici, dans cette synthèse innovante entre narration traditionnelle et interaction intelligente, entre création humaine et collaboration artificielle. "Parle à AVA" nous invite à imaginer un monde où chaque histoire devient une conversation unique, où chaque spectateur devient co-créateur de l'expérience narrative.

Ce billet a été utile ou intéressant ? Rejoins-nous sur Discord, pour suivre en live d’autres sessions d’Open Research.

Rejoindre la communauté MemoWays sur Discord