3DGenR1團隊 投稿
量子位 | 公眾號 QbitAI
在大語言模型和文生圖領域,強化學習(RL)已成為提升模型思維鏈與生成質量的關鍵方法。
但當我們將目光轉向更為復雜的文本到3D生成時,這套方法還會還管用嗎?
近期,一項由西北工業大學、北京大學、香港中文大學、上海人工智能實驗室、香港科技大學合作開展的研究系統性探索了這一重要問題。

論文鏈接:https://arxiv.org/pdf/2512.10949
代碼鏈接:https://github.com/Ivan-Tang-3D/3DGen-R1
強化學習是否能夠用于Text-to-3D生成,以加強3D自回歸模型的逐步推理與生成過程?
在LLM推理和2D文生圖中,RL已經證明可以顯著提升CoT推理能力和生成質量。但3D物體更長、更稠密、更具幾何約束。
因此相關方向研究常面臨這幾個問題:
1.?獎勵如何同時刻畫語義對齊、幾何一致性和視覺質量?
2.?現有RL算法是否適合自回歸式3D生成?
3.?缺乏專門考察“3D推理能力”的Benchmark,難以系統評估RL的真實貢獻。

Progressive Investigation:四個層次拆解Text-to-3D+RL1. Reward設計層

經過系統對比人類偏好、文本對齊、多視圖一致性、3D美學等多種獎勵組合。研究團隊發現:
1)對齊人類偏好信號是提升整體3D質量的關鍵。其他獎勵維度單獨使用時帶來的提升有限,但在疊加到偏好獎勵之上時能夠持續帶來增益;
2)對于同一獎勵維度而言,專門化的獎勵模型通常比大型多模態模型(LMMs)表現出更強的魯棒性。然而,通用多模態模型(Qwen-VL)在3D相關屬性上出乎意料地魯棒,為“低成本獎勵”提供可能。
2. RL算法層

評估GRPO、DAPO、GSPO等在3D自回歸生成中的表現。主要Insight:
1)相比序列級操作,3D自回歸生成中的強化學習更偏好token級策略。
如表2所示,在相同獎勵模型配置下,token級平均策略帶來的提升顯著大于序列級的重要性采樣與剪切方法(GSPO)。
2)簡單的技巧即可穩定訓練,尤其是Dynamic Sampling,只要策略更新受控。完全移除KL懲罰會導致性能下降;而像Decoupled Clip這類更可控的方法,通過鼓勵對低概率token的探索,仍能帶來性能增益。
3)擴大量級的訓練數據能夠有效緩解偏好獎勵帶來的偏差并提升整體表現;適度增加RL迭代也能進一步優化模型,但過度訓練可能損害泛化能力。
3. Benchmark層:MME-3DR

構建首個針對3D推理場景的系統評測基準MME-3DR:由空間&結構幾何,機械可供性與物理合理性,生物/有機形態,長尾稀有實體和風格化/抽象形態五類組成。
MME-3DR希望更關注“在困難約束下是否還能保持一致、合理、可解釋”,而非只展示多樣性。研究團隊發現:
1)近期的Text-to-3D模型在機械結構和非剛性生物體上表現尚可,但在其余三個類別上仍存在明顯不足。RL訓練在所有五類任務上都帶來了顯著提升。如圖中雷達圖所示。
2)MME-3DR能同時評估隱式推理與通用3D生成能力。圖中柱狀圖顯示,在隨機采樣的Toys4K測試集上,Trellis明顯優于ShapeLLM-Omni。這一性能差距在MME-3DR中依然保持,進一步驗證了其多樣化物體覆蓋帶來的評測有效性。
4. RL范式層:Hi-GRPO & AR3D-R1

把3D生成看作天然的coarse-to-fine過程:
Step 1:高層語義先決定整體幾何骨架;
Step 2:在幾何穩定的前提下細化紋理與局部結構。
對兩個step團隊單獨設計專有獎勵模型集成進行監督,基于此提出層次化RL范式Hi-GRPO,并實現首個RL加持的Text-to-3D自回歸模型AR3D-R1。
關鍵發現:RL正在幫3D生成模型“學會思考”
1. 不僅僅是“調美觀”:
在MME-3DR上,RL訓練后的模型在空間幾何、一致性和物理可行性等維度都有顯著提升,表現出隱式3D推理能力的增強。
2. 范式對齊結構先驗很重要:
尊重“先幾何、后紋理”的層次結構設計(Hi-GRPO),比簡單在最終圖像上打分更有效,也更可解釋。
3. 性能與穩定性的二元博弈:
獎勵過于稀疏或RL迭代數過大,會帶來訓練不穩和模式坍縮;高質量人類偏好或強多模態獎勵,可以在同等訓練預算下取得更高回報。
4. 同時,結果清晰的顯示出當前模型的能力邊界:
對極復雜幾何、長尾概念和強風格化場景,模型仍會“邏輯崩壞”;真正可擴展的 3D RL 仍受限于算力與獎勵獲取成本。
更多可視化結果:



論文標題:Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
作者單位:西北工業大學、北京大學、香港中文大學、上海人工智能實驗室、香港科技大學
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
—?完?—
我們正在招聘一名眼疾手快、關注AI的學術編輯實習生
感興趣的小伙伴歡迎關注 ?了解詳情

點亮星標
科技前沿進展每日見

