DALL.E l’IA qui crée des images à partir de textes

par Ban500 le 4 Fév, 2021 Mise à Jour 5 Fév, 2021

Dans notre article consacré à GPT-3, nous expliquions comment cette IA géante créée par la société américaine OpenAI écrivait des textes, des mails, des articles, créait des applis, des sites Web. Quelques mois plus tard, OpenAI vient de sortir DALL.E une version de l’IA GPT-3 qui crée des images à partir de textes. Les résultats obtenus avec ce réseau de neurones, utilisant 12 milliards de paramètres sont tout simplement bluffants. Cette nouvelle intelligence artificielle va potentiellement complètement bouleverser les métiers de la création graphique.

S’il te plait, DALL.E dessine moi un fauteuil en forme d’avocat

« S’il vous plait, dessine-moi un mouton » demandait le Petit Prince de Saint Exupéry. Le narrateur exaspéré finissait par s’exécuter. C’est exactement selon ce principe que fonctionne DALL-E la nouvelle version de GPT-3 l’IA révolutionnaire de OpenAI sortie en juillet 2020.

Les créations réalisées par l’intelligence artificielle sont tout simplement incroyables. Les créateurs de DALL.E lui ont par exemple demandé de créer des images d’un « fauteuil en forme d’avocat » ou « un fauteuil imitant un avocat ». Ci-dessous les 30 créations proposées par l’intelligence artificielle. Cela se passe de commentaire tant les résultats sont impressionnants.

DALL-E génération d'images à partir de textes — Génération d’images : fauteuil en forme d’avocat (source OpenAI)

Le DALL-E est particulièrement bien choisi : il est la synthèse entre le peintre Salvador Dali et le film Disney Pixar WALL-E et son célèbre robot.

Je vous conseille d’aller faire un tour de la démo de DALL.E sur le site d’OpenAI. Vous pouvez vous amuser à voir les différentes créations réalisées par l’IA à partir d’un mot clé et ses variations. Ci-dessous les créations de l’IA sur la variation suivante : vitrail poire bleu, vitrail poire rose, vitrail carotte rose. Je trouve ça génial.

DALL.E vitrail poire bleu — Génération d’images par DALL.E : vitrail poire bleu (source OpenAI)

DALL.E vitrail poire rose — Génération d’images par DALL.E : vitrail poire rose (source OpenAI)

DALL.E vitrail carotte rose — DALL.E génération d’images : vitrail carotte rose (source OpenAI)

Avec Dall.E révolution en vue dans les métiers de la création et du design

On avait déjà vu comment les GAN (Generative Adversarial Network, réseaux de neurones antagonistes génératifs) permettaient de créer des visages humains qui n’existent pas, de réaliser de vraies fausses vidéos deepfake, de créer des tableaux. Le portrait d’Edmond de Bellamy créé par une intelligence artificielle du collectif français Obvious avait été vendu 432.000$ chez Christies en 2018.

On va ici encore plus loin avec une IA qui crée des images à la demande sur n’importe quel thème en s’appuyant sur le fait que GPT-3 a appris par cœur l’ensemble du Web. On imagine sans peine que cela va bouleverser le monde de la création. Cette IA « text to image » offre aux créateurs et aux designers une infinité de possibilités mais rend aussi la création accessible à tout le monde. On imagine bien DALL.E devenir rapidement le meilleur ami d’Instagram.

DALL.E va-t-elle uberiser Philippe Starck et ses confrères? Les questions éthiques d’originalité de la création et de plagiat qu’elle pose sont très importantes.

OpenAI n’a pas indiqué à ce stade comment il diffusera DALL-E. A l’instar de GPT-3, quelques développeurs triés sur le volet devraient y avoir accès rapidement. On devrait voir fleurir leurs créations dans les semaines à venir. Microsoft aura-t-il également la licence exclusive de DALL-E. Les présentations Powerpoint pourraient alors connaître une nouvelle révolution. Affaire à suivre donc!!!

CLIP l’IA qui connecte texte et images

OpenAI ne s’est pas limité de lancer DALL-E en ce début d’année. Elle lance également une autre IA baptisée CLIP utilisant le deep learning qui permet d’étiqueter automatiquement des images. Le résultat obtenu est moins spectaculaire que celui de DALL.E mais très prometteur pour les développeurs de systèmes d’IA de reconnaissance d’images.

Comme nous l’expliquions dans notre article sur le crowdworking, la constitution de bases de données (dataset) d’images en vue d’entraîner une intelligence artificielle demandait d’étiqueter « à la main » image par image des centaines de milliers d’images.

Cette tâche fastidieuse était jusqu’à présent réalisée par des travailleurs du clic payés au lance-pierre. Avec CLIP, OpenAI promet de labelliser automatiquement des bases de données d’images évitant cette étape.

Google réplique dans la course aux IA géantes

OpenAI ne pouvait rester seul dans cette course aux IA géantes. 3 chercheurs de Google Brain (William Fedus, Barret Zoph et Noam Shazeer) annoncé à avoir développé un modèle utilisant 1 billion de paramètres (1000 milliards) de paramètres).

Reste maintenant à savoir si toutes ces communiqués des géants américains à la communication ciselée relèvent de l’effet d’annonce ou sont le prélude de vraies percées dans le traitement du langage et des images par l’IA. Ces IA sont-elles encore « expérimentales » ou vont-elles devenir accessibles largement? 6 mois après son démarrage, GPT-3 est toujours en version beta. Elle n’est par conséquent accessible que sur demande de manière extrêmement limitée. Des développeurs ont testé GPT-3 pour la ridiculiser et y sont parvenus. Ils ont démontré que si elle est fort savante, elle demeure toujours aussi peu consciente. « Science sans conscience n’est que ruine de l’âme » disait Rabelais…