RL加持3D生成时代！首个「R1 式」文本到3D推理大模型AR3D-R1登场

强化学习（RL）在大语言模型和 2D 图像生成中大获成功后，首次被系统性拓展到文本到 3D 生成领域！面对 3D 物体更高的空间复杂性、全局几何一致性和局部纹理精细化的双重挑战，研究者们首次系统研究了 RL 在 3D 自回归生成中的应用！

来自上海人工智能实验室、西北工业大学、香港中文大学、北京大学、香港科技大学等机构的研究者提出了AR3D-R1，这是首个强化学习增强的文本到 3D 自回归模型。该工作系统研究了奖励设计、RL 算法和评估基准，并提出Hi-GRPO——一种层次化强化学习范式，通过分离全局结构推理与局部纹理精修来优化 3D 生成。同时引入全新基准MME-3DR，用于评估 3D 生成模型的隐式推理能力。

实验表明 AR3D-R1 在 Kernel Distance 和 CLIP Score 上均取得显著提升，达到 0.156 和 29.3 的优异成绩。

论文标题：Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation

代码链接：

论文链接：https://arxiv.org/pdf/2512.10949

强化学习应用于 3D 生成的挑战

强化学习在大语言模型（如 DeepSeek-R1）和 2D 图像生成中已被证明能够有效提升模型性能，但将 RL 应用于 3D 生成仍面临独特挑战：

空间复杂性更高：3D 物体需要同时保持全局几何一致性和局部纹理精细度，比 2D 图像的空间复杂性高出一个维度。奖励设计困难：如何设计既能评估全局结构又能捕捉局部细节的奖励函数是关键难题。现有基准局限：当前的文本到 3D 基准主要关注物体多样性，无法有效评估模型的隐式推理能力。算法敏感性：3D 生成对奖励设计和 RL 算法的选择高度敏感，需要系统性的研究来指导实践。

在此前的工作中，3D 模型大多停留在「预训练 + 微调」框架，真正将 RL 引入 3D 生成的一步，还无人系统迈出。

从「推理」到「造物」：

AR3D-R1 的整体框架

AR3D-R1 构建在离散 3D 生成模型 ShapeLLM-Omni 之上，引入了一个推理驱动的 3D 生成流程：

先想一想

再动手造

这让 AR3D-R1 不再是「凭本能画 3D」，而是先构思、再搭骨架、最后上细节——真正把 RL 驱动的「会想」能力，迁移到了「会造」的 3D 世界里。

奖励设计与 RL 算法的系统性研究

在奖励设计方面，研究者评估了多个奖励维度和模型选择，得出以下关键发现：

人类偏好对齐至关重要

通用多模态模型具有鲁棒性

在 RL 算法研究方面，研究者深入分析了 GRPO 的多个变体，包括标准 GRPO、引入 token 级平均与动态采样的 DAPO，和更偏序列级操作的 GSPO 等：