Intelligence de données générative

OpenAI atteint le Point•E avec un modèle de texte en 3D open source

Date :

OpenAI a étendu les capacités de son logiciel texte-image de deux dimensions à trois avec la sortie de Point•E, un projet open source qui produit des images 3D à partir d'invites de texte.

La société de recherche en intelligence artificielle a attiré l'attention sur son logiciel DALL•E, qui, comme les projets concurrents Stable Diffusion et À mi-parcours peut générer des images réalistes ou fantastiques à partir d'un texte descriptif.

Tandis que Point•E partage le symbole de la puce utilisé dans la marque DALL•E d'OpenAI, il s'appuie sur un modèle d'apprentissage automatique différent appelé GLIDE. Et actuellement, ce n'est pas aussi capable. Étant donné une directive textuelle comme « un cône de signalisation », Point•E produit un nuage de points basse résolution (un ensemble de points dans l'espace) qui ressemble à un cône de signalisation.

Exemples d'images Point•E

Exemples d'images Point•E – Cliquez pour agrandir

Le résultat est loin de la qualité d'un rendu 3D commercial dans un film ou un jeu vidéo. Mais ce n'est pas censé l'être. Les nuages ​​de points représentent une étape intermédiaire - une fois introduits dans une application 3D comme Blender, ils peuvent être transformés en maillages texturés qui ressemblent davantage à des images 3D familières.

Exemples d'images Point•E converties en maillage

Exemples d'images Point•E converties en maillage – Cliquez pour agrandir

"Bien que notre méthode ne soit toujours pas à la pointe de la technologie en termes de qualité d'échantillon, elle est d'un à deux ordres de grandeur plus rapide à prélever, offrant un compromis pratique pour certains cas d'utilisation", expliquent les chercheurs d'OpenAI. Alex Nichol, Heewoo Jun, Prafulla Dhariwal, Pamela Mishkin et Mark Chen dans un document [PDF] décrivant le projet.

L'intérêt de Point•E est qu'il « génère efficacement des nuages ​​de points » – c'est de là que vient le « E » dans ce cas. Il peut produire des modèles 3D en utilisant seulement une à deux minutes de temps GPU, par rapport aux méthodes de pointe qui nécessitent plusieurs heures GPU pour créer un rendu fini. C'est nettement plus rapide que celui de Google RêveFusion modèle de texte en 3D – 600x par une estimation.

Mais Point•E n'est pas un projet commercial. Il s'agit d'une recherche fondamentale qui peut éventuellement mener à la création rapide de modèles 3D à la demande. Avec des travaux supplémentaires, cela peut rendre la création de monde virtuel plus facile et plus accessible à ceux qui n'ont pas de compétences professionnelles en graphisme 3D. Ou peut-être contribuera-t-il à simplifier le processus de création d'objets imprimés en 3D – Point•E prend en charge la création de nuages ​​de points à utiliser dans la fabrication de produits.

"Cela a des implications à la fois lorsque les modèles sont utilisés pour créer des plans pour des objets dangereux et lorsque les plans sont fiables pour être sûrs malgré l'absence de validation empirique", observent les auteurs.

Il existe d'autres problèmes potentiels qui doivent être résolus. Par exemple, comme DALL•E, Point•E est censé contenir des biais hérités de son ensemble de données d'apprentissage.

Et cet ensemble de données - plusieurs millions de modèles 3D et métadonnées associées de provenance non spécifiée - est fourni sans aucune garantie que les modèles sources ont été utilisés avec autorisation ou conformément aux conditions de licence applicables. Cela pourrait s'avérer être un gros casse-tête, légalement.

Il y a déjà un problème posté sur le référentiel Point•E GitHub demandant plus d'informations sur l'ensemble de données. Doyup Lee, développeur d'IA sud-coréen, observe : "Je pense que de nombreux chercheurs sont également curieux de connaître les détails des données de formation et du processus de collecte de données."

L'attitude cavalière de la communauté de l'IA concernant la formation de modèles d'apprentissage automatique utilisant le travail d'autres personnes sans autorisation explicite a déjà alimenté une action en contrefaçon contre Github Copilot, un service qui suggère du code de programmation aux développeurs utilisant le modèle Codex d'OpenAI. Les modèles texte-image peuvent être testés de la même manière car ils être commercialisé. ®

spot_img

Dernières informations

spot_img