Les outils IA pour la production audiovisuelle

production IA

L’IA générative pour la production d’images

C’est une évidence aujourd’hui, et nous en sommes persuadés depuis un moment à la Plaine Images : l’intelligence artificielle va forcément impacter les métiers, les process, la formation et le quotidien des étudiants, des entrepreneurs et entrepreneuses et des collaborateurs et collaboratrices de notre écosystème.

Retour sur le premier IApéro de la Plaine Images, un événement mensuel pensé par et pour les professionnels des industires culturelles et créatives.

Pour cette première édition, nous avons reçu Julien Frisch, ancien incubé, consultant en IA, et un des référents BPI France pour le programme IA Booster France 2030, et Rémi Auguste, docteur en informatique et fondateur de l’entreprise Weaverize, implantée à la Plaine Images depuis 7 ans.as

L’intelligence artificielle générative offre des opportunités de réduction de coût croissante pour le secteur du retail, gros pourvoyeurs de visuels commerciaux.

Historiquement, les entreprises du retail devaient orchestrer des séances photos, impliquant le transport de milliers de produits vers des lieux spécialement loués pour l’occasion, la mise en situation, la gestion de l’éclairage, la prise de photo, le travail postproduction… Avec l’IA, Rémi Auguste nous présente en détail les outils avec lesquels il retravaille le workflow de cette production conséquente :

IA
En résumé, les produits sont désormais photographiés dans un studio classique, et intégrés virtuellement dans différents contextes, grâce à des solutions IA. Mais quels outils pour chaque étape? Une petite revue s’impose, avec une prédilection pour les logiciels open source :

Détourage par IA

Il peut se réaliser en quasi instantané grâce à des services gratuits sur Internet (une simple recherche “remove background”) mais certains outils atteignent les standards professionnels attendus, comme removebg.

Segment Anything Model (SAM), un nouveau modèle d’IA développé par la R&D de de Meta, permet lui de détourer n’importe quel objet, dans n’importe quelle image, en un seul clic, grâce à la discrimination sémantique. Du côté du logiciel open source, Yolo est une bonne alternative.

Scènes produites par IA

Pour créer des visuels dans lesquels s’intègre le produit photographié, utilisez Stable Diffusion ou Flux. Les alternatives commerciales sont Midjourney, Dall-E, + Stable Diffusion Webui Forge. En réalité, chaque outil à ses particularités de contrôle et de rendu de l’output : Flux est un choix de premier ordre si vous voulez contrôler finement des spécificités souhaitées dans votre génération.

Ces outils gèrent également l’upscale de l’image (en ajoutant des pixels), indispensable pour un rendu professionnel ou pour certaines prestations, comme le print.

Vidéos avec l’IA

De multiples solutions existent mais voici une sélection testée et approuvée :

  • Runway pour des rendus cinématographiques
  • Cogvideo en open source
  • Kling, qui permet d’animer des images statiques
  • Synthesia, qui permet de générer des avatars à partir d’une voix off


Savoir utiliser les LoRA

En complément de cette première stack d’outils, Rémi Auguste nous propose une parenthèse sur une façon d’aller plus loin avec les modèles génératifs : les LoRA.

Les LoRA veulent dire Low-Rank Adaptation et correspondent à une méthode pour créer des sous-modèles légers qui vont se greffer sur des modèles d’IA existants, comme Stable Diffusion. L’intérêt ? Au lieu d’entraîner un modèle complet, avec les exigences de traitement de la données qui vont avec, les LoRA permettent d’ajouter de nouveaux styles en surcouche, avec seulement 10 à 20 Mo de paramètres supplémentaires. L’entraînement peut se faire avec un minimum de 10 images et vous aurez ainsi la maîtrise d’une petite collection d’objets.

Cette manière de faire du fine tuning est appréciable pour qui veut un style bien déterminé et reconnu (pensez au rendu Lego par exemple !), des librairies comme Hugging Face (entre autres) proposant une sélection de LoRA préconçus.


L’IA générative pour le traitement du son

Côté synthèse vocale, les progrès ont été exponentiels ces dernières années : l’approche des outils a longtemps été concaténative, c’est-à-dire qu’on alignait des phonèmes en calquant des syllabes sur des sons, ce qui était efficace mais très peu naturel. Désormais, l’IA générative permet un rendu beaucoup plus performant. ElevenLabs est un des outils phares du marché, et comprend une multitude de fonctionnalités pour donner de la voix à vos projets.

Transformer du texte en son avec l’IA

ElevenLabs permet de traiter un flux de texte pour en faire un audio qualitatif, ce qu’on appelle du text-to-speech.

 

L’outil permet de nombreux usages autour de la voix, en s’entraînant sur votre propre voix (via ce qu’on appelle un clonage) pour que le rendu soit le plus naturel possible. Il permet donc de gérer :

  • la synthèse vocale “classique”, avec la possibilité de traduire directement dans une autre langue
  • le voice-over et le doublage
  • la création rapide d’audiobook

Le clonage d’une voix se fait en 1h30-2h, car il faut entraîner le modèle à appréhender la voix en proposant un set audio. Ensuite, rien de plus simple, l’outil génère la production désirée en quelques secondes.

Eleven Labs
Un exemple de paramétrage possible sur Eleven Labs

Synchronisation labiale avec l’IA

VideoReTalking est un modèle open source permettant d’éditer les visages d’une vidéo pour que les lèvres s’animent en synchronicité avec un nouvel audio.

VideoReTalking

Animation d’images par vidéo avec l’IA

Plusieurs outils open source accélèrent une partie du travail d’animation :

  • AniPortrait permet d’animer les traits d’une image statique à partir d’un audio ou d’une vidéo
  • Efficient-Live-Portrait permet d’animer les traits d’une image en clonant les traits d’une vidéo
  • LivePortrait se spécialise dans l’animation de peinture :

Vous l’avez compris, il existe une profusion d’outils qu’il convient de cibler en fonction de son usage : c’est une des volontés des IApéros Plaine Images, mais pas le seul ! 

Dans les rendez-vous à venir, nous focuseront particulièrement sur un usage, une problématique, un cas vertueux ou une démo d’outils… pour que ce rendez-vous mensuel soit une vecteur puissant de transformation pour les pros de l’audiovisuel !

Envie de suivre l'actualité de l'industrie AUDIOVISUELLE ?

Service de veille

Abonnez-vous à notre
lettre de veille Audiovisuel :

décryptage des actus, des tendances, des mutations en cours dans l’industrie, de l’évolution du marché et des technologiques… à lire tous les mois ! 

NE LOUPEZ PAS LE PROCHAIN IAPÉRO !

Prochain rendez-vous bientôt…

Nos événements sont annoncés tous les mois dans notre newsletter et toutes les semaines sur nos réseaux sociaux. 

accueil