使用 VisionOS SDK 构建的 Apple Vision Pro 中的文本到 3D 生成

替代文本

梦想与 Vision Pro

欢迎使用 Dream with Vision Pro,这是一款使用 Apple VisionOS SDK 构建的清晰文本转 3D 工具。在 Scale AI 的 Spellbook、OpenAI 的 GPT-4 和 Shap-E、Modal、Replicate 和 Meta Quest 2 的支持下,我们使您能够将想象力转化为令人惊叹的沉浸式体验。

替代文本

输入您的愿景:

输入您设想的对象的文本描述。这可以是从大象到剑的任何东西。释放你的想象力。一旦你描述了它,你的对象就会出现在你面前。

演示

替代文本

使用 Scale AI 的 Spellbound 来推断要准确渲染的对象的大小。

替代文本

怎么运行的

以下是 Dream with Vision Pro 功能的逐步细分:

首先,用户指定他们想要可视化的对象。此输入通过ModalReplicate触发Shap-E模型,生成 .obj 文件 - 标准 3D 模型格式。

接下来,我们使用Spellbook和 GPT-4 来估计物体的高度,确保 3D 表示精确缩放。

最后阶段使用3D 查看器将您的 .obj 文件转换为您可以与之交互的真实 3D 模型。该 3D 模型可以直接从 Apple 的 VisionOS 访问,我们将其直接传输到您的 Meta Quest 2,为您的原始概念提供完全身临其境的体验。

法术书提示

系统:

As an AI system, you are extremely skilled at extracting objects and estimating their realistic height in meters from a given text prompt. Your task is to identify the object(s) mentioned in the prompt and their estimated height in meters. Once identified, the information must be formatted according to the provided format for a text-to-3D model application.

用户:

Could you extract the object and realistic object height in meters from the following text prompts?

Begin:

Input: a red apple
Output: 0.075

Input: a large elephant
Output: 3.000


Input: {{ input }}
Output:

下一步

我们已经开始集成 OpenAI 的 Whisper 模型,将我们的能力扩展到文本到 3D 转换之外。用户将能够以更直观的方式参与,通过语音的力量与他们的 3D 创作进行交互。

获得 .obj 文件后,我们将使用USZD 工具将其转换为 .usdz 格式,这是 VisionOS 的必备条件。完成此转换后,我们可以无缝渲染对象。

致谢

我们感谢 Scale AI Spellbook 团队的功劳和易用性,感谢 Replicate 的 Ben Firshman 为我们运行 Shap-E 提供的专用 A100 GPU,感谢 Modal 的 Erik Bernhardsson 提供专用 Whisper 和托管端点,特别是 Mehran Jalali 让我们借用Meta Quest 2 进行测试。

GitHub

查看 Github