AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:
[email protected];
[email protected]第一作者,郭子瑜,是喷鼻港中文年夜学 MiuLar Lab 的博士生,本科结业于北京年夜学,曾在 Amazon、Roblox、上海人工智能试验室、腾讯等机构练习,研讨多模态年夜模子跟 3D 视觉,一作代表作有 Point-LLM、PointCLIP、SAM2Point 等。跟着 OpenAI o1 向社区展现了头脑链 Chain-of-Thought(CoT)对年夜模子推理才能的强盛晋升,种种基于强化进修 RL 跟晋升 test-time 推理本钱的计划曾经在年夜模子懂得范畴获得了很年夜的停顿。但是,在图像天生(Image Generation)范畴,比方文生图(Text-to-Image)与文生视频(Text-to-Video),咱们能否也能够鉴戒 CoT 相干的战略,来晋升图片或视频的品质跟文本分歧性呢?来自喷鼻港中文年夜学、北京年夜学、跟上海 AI Lab 的研讨者们经由过程 Verify 跟 Reinforce 的计划,体系地摸索了「CoT 推理 + 文生图」的联合与潜力。研讨成果标明,这些方式可能无效晋升自回归(Autoregressive)图像天生的品质,作者也提出了两种专门针对该义务的新型嘉奖模子 —— 潜力评价嘉奖模子(Potential Assessment Reward Model, PARM) 及其加强版本 PARM++,后者引入了反思机制(Reflection Mechanism),进一步优化了图像天生品质。论文题目:Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step论文地点:https://arxiv.org/pdf/2501.13926名目地点:https://github.com/ZiyuGuo99/Image-Generation-CoT研讨配景与挑衅现在,CoT 推理已普遍利用于年夜言语模子(LLM)跟多模态年夜模子(LMM),尤其在数学推理、迷信盘算等义务上展示出出色的才能。但是,在自回归图像天生义务中,怎样无效地验证(Verify)跟强化(Reinforce)图像天生进程,还是一个尚未处理的成绩。下图右边局部是现在范畴应用「CoT 推理 + 解数学题」的计划概述,而左边局部则是本文对「CoT 推理 + 文生图」的片面摸索。研讨团队察看到,自回归图像天生与 LLM/LMM 存在相似的推理架构,即:团圆化 Token 表现:无论是言语仍是图像数据,自回归模子都将其量化为团圆 Token,并经由过程逐渐猜测的方法停止天生。逐渐解码(Step-by-Step Decoding):相似于 CoT 在数学识题上的逐渐推理,自回归图像天生也能够逐渐天生旁边图像,并在天生进程中停止验证与优化。CoT 怎样利用于图像天生?斟酌到 Autoregressive 图像天生跟 LLM 在数据表征跟推理架构的类似性,论文调研了包含应用 ORM 跟 PRM 的 Test-time Verification、结构 Preference Ranking Data、跟经由过程 DPO 停止偏好对齐等计划,初次证实了「CoT + 文生图」的可行性!本文也提出了两种新型的 reward model,PARM 跟 PARM++,来优化图像天生品质。如下图所示,经由过程本文摸索的推理战略,年夜幅度晋升了 Autoregressive Image Generation 的后果。详细计划本文的摸索以「文生图」为义务场景,并应用了 Show-o 来作为 baseline 模子,重要分为 3 个局部:1、测试时验证(Test-time Verification)起首,论文摸索怎样应用嘉奖模子(Reward Model, RM) 来停止 Test-time Verification,实现了 Outcome Reward Model(ORM,下图右边局部)跟 Process Reward Model(PRM,下图旁边局部)计划,并在两者的基本上提出了一种全新的针对图像天生义务的 Potential Assessment Reward Model(PARM,下图左边局部)。1.1. 成果嘉奖模子(Outcome Reward Model, ORM)论文提出了 2 种计划,均应用 Best-of-N 的方法停止验证,即停止屡次完全门路的天生,并从当选择出品质最高的终极图片。Zero-shot ORM:基于 LLaVA-OneVision 强盛的图像懂得才能,作者应用了其 7B 模子,直接作为 zero-shot ORM 应用,并经由过程上面的 prompt 来激起其作为文生图品质评价的才能:Fine-tuned ORM:为了进一步加强 ORM 的专业机能,作者也构建了年夜范围的图文 reward data 来失掉 fine-tuned ORM,数据情势如下图所示:1.2. 进程嘉奖模子(Process Reward Model, PRM):作者应用了相似 ORM 的计划,同样实验了 Zero-shot 跟 Fine-tuned 两种计划,并对每个 step 停止 Best-of-N 的计划,即逐渐抉择出品质最高的旁边阶段的天生图片。但是,作者发明这种 naive 的 PRM 无奈对图像天生有明显的晋升。经由过程可视化,作者发明:PRM 在晚期天生阶段因为图像含混而难以评价,而在前期天生阶段差别门路的图片趋于类似,招致分辨才能受限,如下图所示。1.3. 潜力评价嘉奖模子(Potential Assessment Reward Model, PARM):为了同时联合 ORM 的简练跟无效性,以及 PRM 细粒度一一 step 验证的思维,作者提出了一个专门针对 Autoregressive 图像天生义务的 reward model:Potential Assessment Reward Model(PARM)。PARM 经由过程以下三步晋升图像天生品质:清楚度断定(Clarity Judgment):辨认哪些旁边步调的图像曾经充足清楚,可用于后续评价。潜力性评价(Potential Assessment):剖析以后步调能否有潜力天生高品质的终极图像。最佳抉择(Best-of-N Selection):在高潜力门路当选择最佳的终极图像。1.4. 潜力评价嘉奖模子 ++(Potential Assessment Reward Model++,PARM++)如下图所示,在 PARM 的基本上,作者提出了 PARM++,使模子可能在天生过错时停止自我修改。详细来说,基于 PARM 选出的终极图片,作者起首应用 PARM++ 评价天生图片能否合乎文本描写;若图片不合乎请求,会请求 RM 供给具体的过错描写,并依据该描写,请求天生模子停止自我修改(Self-correction),即模子接受反应,并参考过错信息从新天生成果。成果标明,PARM++ 进一步晋升 GenEval +10%。如下图左边所示,天生成果在物体数目、色彩、空间关联等方面愈加正确。2、直接偏好优化(Direct Preference Optimization, DPO)Alignment:作者进一步引入 DPO 偏好对齐,即便用年夜范围排名数据练习模子,使其天生成果更合乎人类偏好。研讨团队构建了 288K 条图文排名数据(Text-to-Image Ranking Data)用于练习。详细来说,练习进程是采取最年夜似然优化,调剂模子输出,使其更倾向人类偏好。同时,论文也进一步应用迭代 DPO(Iterative DPO),在模子优化后从新天生新数据停止再次练习。成果标明,首次 DPO 练习使模子在 GenEval 机能晋升 +9%,而迭代 DPO 进一步进步至 +12%,超出 Fine-tuned ORM。3、Test-time Verification + DPO Alignment:在前述两种方式的基本上,作者摸索了将 Test-time Verification 与 DPO 对齐相联合的战略,以实现端到真个优化。在 DPO 练习的模子基本上,进一步利用 Test-time Verification 停止挑选,使天生图像品质更高,文本分歧性更强。试验成果标明,联合 DPO 跟 Test-time Verification 后,模子在 GenEval 指标上的团体晋升达 +27%,超出独自应用 DPO 或 Test-time Verification 的计划。总体后果对照下表展现了模子在 GenEval 基准上的总体机能比拟,比拟于现有的分散模子跟自回归模子,成果证实了在文本天生图像义务中应用 CoT 推理战略的潜力。论断本研讨初次体系性摸索了 CoT 推理战略在自回归图像天生中的顺应性及潜力。经由过程片面的试验剖析证实了差别的推理战略(如测试时验证、偏好对齐及其联合)可能无效晋升图像天生品质。基于这些察看,本文进一步提出了两种专门针对自回归图像天生的嘉奖模子 —— 潜伏评价嘉奖模子(PARM)跟 PARM++,前者可能对逐渐天生进程停止自顺应嘉奖评分,后者则联合了反思机制(Self-reflection),实现自我修改的图像天生。试验成果标明,CoT 推理在自回归图像天生义务中展示出了宏大的潜力,为该范畴的开展开拓了新的偏向,也为年夜模子推理才能的进一步晋升奠基了基本!