OpenAI 是人工智能驱动的 ChatGPT 聊天机器人和 Dall-E 文本到图像生成器背后的公司,它发布了一种新工具,可以根据简单的文本输入生成 3D 对象。它被称为 Point-E,它的开源代码在 Github 上可用,尽管尝试起来稍微复杂一些,因为用户需要适度精通命令行工具,并且系统需要有 python,不像 ChatGPT,用户可以在其中在网站上注册并测试其功能。
【资料图】
Point-E 的开发人员还发表了一篇研究论文,描述了该平台的工作原理及其局限性。他们声称,与其他 3D 图像生成器不同,Point-E 不需要高端计算机即可工作,并且可以使用单个 Nvidia V100 GPU 在不到两分钟的时间内生成模型。
Point-E 是如何工作的?
简单来说,Point-E 可以用简单的英文命令生成 3D 模型,类似于Open AI的 Dall-E。该论文展示了一些奇怪的例子,例如“一只戴着红色圣诞帽的柯基犬”、“一个五颜六色的彩虹南瓜”、“一副 3D 眼镜”和“一把牛油果椅,一把模仿牛油果的椅子”。但是,该工具不会生成传统意义上的 3D 模型,而是会创建几个代表 3D 形状的数据点。在该工具基于它已经分析过的“数百万个 3D 模型”分析输入后,将对最终输出进行处理。
这篇题为“Point E: A system for generating 3D point clouds from complex prompts”的论文写道,“。为了从文本提示中生成 3D 对象,我们首先使用文本到图像模型对图像进行采样,然后对图像进行采样以采样图像为条件的 3D 对象。这两个步骤都可以在几秒钟内执行,并且不需要昂贵的优化程序。”
开发人员声称,Point-E 生成的 3D 对象可以极大地帮助广泛的应用程序,例如虚拟现实、游戏和工业设计。
Point-E 的局限性
与二维图像生成器 Dall-E 类似,Point-E 也无法分析输入,其最终输出显示为低分辨率。此外,最终输出并没有捕捉到“细粒度的形状或纹理”。
但 Point-E 技术可以在分析更多真实世界图像时得到改进。一旦系统得到改进,它可能会有效挑战谷歌的 DreamFusion,后者会产生更准确的结果,但它需要强大的硬件。
论文写道,“我们发现 Point·E 能够根据文本提示有效地生成多样化和复杂的 3D 形状。我们希望我们的方法可以作为文本到 3D 合成领域进一步工作的起点”
有趣的是,Point-E 的研究人员使用 OpenAI 的ChatGPT来撰写研究论文。