L’IA générative pour la production d’images
C’est une évidence aujourd’hui, et nous en sommes persuadés depuis un moment à la Plaine Images : l’intelligence artificielle va forcément impacter les métiers, les process, la formation et le quotidien des étudiants, des entrepreneurs et entrepreneuses et des collaborateurs et collaboratrices de notre écosystème.
Retour sur le premier IApéro de la Plaine Images, un événement mensuel pensé par et pour les professionnels des industires culturelles et créatives.
Pour cette première édition, nous avons reçu Julien Frisch, ancien incubé, consultant en IA, et un des référents BPI France pour le programme IA Booster France 2030, et Rémi Auguste, docteur en informatique et fondateur de l’entreprise Weaverize, implantée à la Plaine Images depuis 7 ans.as
L’intelligence artificielle générative offre des opportunités de réduction de coût croissante pour le secteur du retail, gros pourvoyeurs de visuels commerciaux.
Historiquement, les entreprises du retail devaient orchestrer des séances photos, impliquant le transport de milliers de produits vers des lieux spécialement loués pour l’occasion, la mise en situation, la gestion de l’éclairage, la prise de photo, le travail postproduction… Avec l’IA, Rémi Auguste nous présente en détail les outils avec lesquels il retravaille le workflow de cette production conséquente :
![IA](https://plaine-images.fr/wp-content/uploads/2024/12/image-_1_.webp)
Détourage par IA
Il peut se réaliser en quasi instantané grâce à des services gratuits sur Internet (une simple recherche “remove background”) mais certains outils atteignent les standards professionnels attendus, comme removebg.
Segment Anything Model (SAM), un nouveau modèle d’IA développé par la R&D de de Meta, permet lui de détourer n’importe quel objet, dans n’importe quelle image, en un seul clic, grâce à la discrimination sémantique. Du côté du logiciel open source, Yolo est une bonne alternative.
Scènes produites par IA
Pour créer des visuels dans lesquels s’intègre le produit photographié, utilisez Stable Diffusion ou Flux. Les alternatives commerciales sont Midjourney, Dall-E, + Stable Diffusion Webui Forge. En réalité, chaque outil à ses particularités de contrôle et de rendu de l’output : Flux est un choix de premier ordre si vous voulez contrôler finement des spécificités souhaitées dans votre génération.
Ces outils gèrent également l’upscale de l’image (en ajoutant des pixels), indispensable pour un rendu professionnel ou pour certaines prestations, comme le print.
![](https://plaine-images.fr/wp-content/uploads/2024/12/Capture-decran-2024-12-02-a-11.35.07-1-1024x552.webp)
Vidéos avec l’IA
Savoir utiliser les LoRA
En complément de cette première stack d’outils, Rémi Auguste nous propose une parenthèse sur une façon d’aller plus loin avec les modèles génératifs : les LoRA.
Les LoRA veulent dire Low-Rank Adaptation et correspondent à une méthode pour créer des sous-modèles légers qui vont se greffer sur des modèles d’IA existants, comme Stable Diffusion. L’intérêt ? Au lieu d’entraîner un modèle complet, avec les exigences de traitement de la données qui vont avec, les LoRA permettent d’ajouter de nouveaux styles en surcouche, avec seulement 10 à 20 Mo de paramètres supplémentaires. L’entraînement peut se faire avec un minimum de 10 images et vous aurez ainsi la maîtrise d’une petite collection d’objets.
Cette manière de faire du fine tuning est appréciable pour qui veut un style bien déterminé et reconnu (pensez au rendu Lego par exemple !), des librairies comme Hugging Face (entre autres) proposant une sélection de LoRA préconçus.
L’IA générative pour le traitement du son
Côté synthèse vocale, les progrès ont été exponentiels ces dernières années : l’approche des outils a longtemps été concaténative, c’est-à-dire qu’on alignait des phonèmes en calquant des syllabes sur des sons, ce qui était efficace mais très peu naturel. Désormais, l’IA générative permet un rendu beaucoup plus performant. ElevenLabs est un des outils phares du marché, et comprend une multitude de fonctionnalités pour donner de la voix à vos projets.
Transformer du texte en son avec l’IA
ElevenLabs permet de traiter un flux de texte pour en faire un audio qualitatif, ce qu’on appelle du text-to-speech.
L’outil permet de nombreux usages autour de la voix, en s’entraînant sur votre propre voix (via ce qu’on appelle un clonage) pour que le rendu soit le plus naturel possible. Il permet donc de gérer :
- la synthèse vocale “classique”, avec la possibilité de traduire directement dans une autre langue
- le voice-over et le doublage
- la création rapide d’audiobook
Le clonage d’une voix se fait en 1h30-2h, car il faut entraîner le modèle à appréhender la voix en proposant un set audio. Ensuite, rien de plus simple, l’outil génère la production désirée en quelques secondes.
![Eleven Labs](https://plaine-images.fr/wp-content/uploads/2024/12/image-_2_.webp)
Synchronisation labiale avec l’IA
VideoReTalking est un modèle open source permettant d’éditer les visages d’une vidéo pour que les lèvres s’animent en synchronicité avec un nouvel audio.
![VideoReTalking](https://plaine-images.fr/wp-content/uploads/2024/12/image-_3_.webp)
Animation d’images par vidéo avec l’IA
Plusieurs outils open source accélèrent une partie du travail d’animation :
- AniPortrait permet d’animer les traits d’une image statique à partir d’un audio ou d’une vidéo
- Efficient-Live-Portrait permet d’animer les traits d’une image en clonant les traits d’une vidéo
- LivePortrait se spécialise dans l’animation de peinture :
![](https://plaine-images.fr/wp-content/uploads/2024/12/showcase2.gif)
Vous l’avez compris, il existe une profusion d’outils qu’il convient de cibler en fonction de son usage : c’est une des volontés des IApéros Plaine Images, mais pas le seul !
Dans les rendez-vous à venir, nous focuseront particulièrement sur un usage, une problématique, un cas vertueux ou une démo d’outils… pour que ce rendez-vous mensuel soit une vecteur puissant de transformation pour les pros de l’audiovisuel !
Envie de suivre l'actualité de l'industrie AUDIOVISUELLE ?
Service de veille
Abonnez-vous à notre
lettre de veille Audiovisuel :
décryptage des actus, des tendances, des mutations en cours dans l’industrie, de l’évolution du marché et des technologiques… à lire tous les mois !
NE LOUPEZ PAS LE PROCHAIN IAPÉRO !
Prochain rendez-vous bientôt…
Nos événements sont annoncés tous les mois dans notre newsletter et toutes les semaines sur nos réseaux sociaux.