擴散 / 流匹配模型的人類偏好對齊中,實現高效采樣與穩定優化的統一,一直是一個重大挑戰。
近期,北京大學與字節團隊提出了名為 BranchGRPO 的新型樹形強化學習方法。不同于順序展開的 DanceGRPO,BranchGRPO 通過在擴散反演過程中引入分叉(branching)與剪枝(pruning),讓多個軌跡共享前綴、在中間步驟分裂,并通過逐層獎勵融合實現稠密反饋。
該方法在 HPDv2.1 圖像對齊與 WanX-1.3B 視頻生成上均取得了優異表現。最令人矚目的是,BranchGRPO 在保證對齊效果更優的同時,迭代時間最高近 5×(Mix 變體 148s vs 698s)。
- 單位:該項目主要由來自北京大學、北京師范大學、字節跳動的師生聯合研究,作者包括李聿明、王一凱等,通訊作者為北京大學仉尚航。
研究背景與挑戰
近年來,擴散模型與流匹配模型憑借在圖像與視頻生成上的高保真、多樣性與可控性,已成為視覺生成的主流方案。然而,僅靠大規模預訓練并不能保證與人類意圖完全對齊:模型生成的結果常常偏離美學、語義或時間一致性的需求。
為解決這一問題,「人類反饋強化學習(RLHF)」被引入,用以直接優化生成模型,使其輸出更貼近人類偏好。
在 RLHF 體系中,「群體相對策略優化(GRPO)」被證明在圖生文、文生圖和視頻生成中具有良好的穩定性與可擴展性。然而,當 GRPO 應用于擴散 / 流模型時,依舊面臨兩大根本性瓶頸:
低效性:標準 GRPO 采用順序 rollout,每條軌跡必須在舊策略和新策略下獨立采樣,復雜度達到 O (N×T)(其中 T 是擴散步數,N 是組大小)。這種重復采樣帶來大量計算冗余,嚴重限制了大規模生成任務的擴展性。
稀疏獎勵:現有方法通常只在最終生成結果上計算單一獎勵,并將其均勻回傳至所有步。這種 “稀疏且均勻” 的反饋忽視了中間狀態中蘊含的關鍵信號,導致 credit assignment 不準確,訓練波動大、收斂不穩,甚至出現高方差梯度。
因此,一個關鍵問題被提出:如何在不破壞多樣性的前提下,既提升采樣效率,又讓獎勵信號更稠密、更穩定地作用于訓練過程?
正是在這一背景下,我們提出了 BranchGRPO。通過樹形分叉、獎勵融合與剪枝機制,BranchGRPO 做到了「又快又穩、又強又準」,為大規模視覺生成對齊開辟了新路徑。