400-123-4567

13988999988

成功案例

联系我们

公司地址:广东省广州市天河区88号
联系方式:400-123-4567
公司传真:+86-123-4567
手机:13988999988

UCB团队可以通过提出强化学习方法而没有外部奖

作者:365bet体育 日期:2025/05/30 13:23 浏览:
图丨相关论文(来源:arXiv)资料来源:近几个月来,DeepTechin通过可验证的奖励(RLVR)获得了加强学习,引起了学术界的越来越多的关注。与基于人类反馈(RLHF)(RLHF)(RLVR)的传统强化学习引起的高成本和人类偏见相比,引入自动奖励信号(作为对数学问题的标准响应和代码测试批准的案例)降低了手动注释的依赖性。但是,该应用程序的范围受特定领域的限制,这些领域可以提供明确,可验证的奖励,这限制了模型在更广泛的开放方案中的应用。最近,来自加利福尼亚大学伯克利分校(UCB)的研究小组为这个问题引起了新的解决方案。他们提出了一种称为Intuitor的方法。这允许最大的模型仅基于“界面的刺激”来学习和推断,而无需对真实响应的外部奖励或方向。相关文档已在Arxiv Pre上发表Dimpression网站的标题为“学习无外部奖励”的标题,并迅速引起了详尽的关注。没有外部奖励的轭:我们可以看到,RLIF和Intuitor的诞生可以有效地提高模型的性能,但是它很昂贵,并且可以引入偏见手册,但是,RLVR TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TO TRO限制,这些限制需要特定的域验证器和“ Gold Standard”解决方案。例如,数学问题需要专家响应,而代码生成需要全面的测试和执行环境。这些要求限制了RLVR在计划良好的域上的应用,因此,奖励机制还限制了迁移到模型其他域的能力。因此,大型模型可以提供推理功能,而无需外部验证器或特定域真实值。我们只能相信基本信号可以改进吗? UCB研究人员提出了一个问题,正是基于这个问题“内部反馈的学习增强”的新框架。 RLIF的核心思想是,可以通过优化模型生成的唯一信号而不依赖扩展的广泛反射或监督信息来提高性能。这提供了一种改善自我融合性的机制,以开发超越未来人类评估能力的场景。根据RLIF MARCO的说法,团队还提出了一种特定的实施方法:Intuator。 Intuitor巧妙地使用模型的“信任”,并以更高的精度将“自我征服”作为奖励的唯一迹象。这个想法来自直观的观察。无论是人类还是伟大的模型,都面临困难的问题或缺乏相关知识,从而导致信心降低。相反,如果他们相信自己的答案和推理过程,他们的信任程度将更高,并且这种高信心通常与纠正有关。因此,我们如何量化“自我 - 确定性民族理论“模型?研究人员创造了另一个重要的工作”,最佳n新纽扣可以为Lagoina模型延伸自身变化。它是2025年2月发射的。在这项工作中,我们建议使用平均KL的KL差异来衡量自我确定的概率分布和模型的均匀分布。概率非常集中在某些芯片中,其输出分布远非统一分布,而KL的差异值很大。直接为强化学习过程的奖励信号,结合了现有的APR算法Maduro的增强,以允许策略更新模型,例如优化小组相对政策(GRPO)。我们将指导您预约。组算法通常需要外部奖励来评估一组候选结果的优势和缺点。在Intuitor中,外部奖励被模型本身计算出的自我确定主义分数完全取代。通过这种方式,该模型的动机是生成“有信心”创建的输出顺序,因此在没有外部监督的情况下可以提高学习和推理技能。 “信任”使您可以学习一个复杂的直觉推理,研究团队进行了一系列实验。他们使用QWEN2.5-1.5B和QWEN2.5-3B作为数学数据集培训的基本模型。实验结果表明,现场数学参考点,如GSM8K和Math500,它们是与使用外部奖励的人相媲美。在某些情况下(例如使用QWEN2.5-3B模型),GSM8K中的Intuitor的准确性达到了79.2%,在组中略低于82.6%,在MATH500中少于61.2%,在GRPO中少于63.6%。该图还比较了几种GSM8K,MATH,LCB,CRUXEVAL-O,MMLU-PRO方法和Alpacaeval参考点的性能(来源:ARXIV),并且研究团队比较了一种称为GRPO-PV的变体方法。结果表明,Intuitor的性能与GRPO-PV相当,这证明了其在非监督环境中学习的能力。 Intuitor的最大优势是他有能力在所有任务中概括。当将QWEN2.5-3B模型应用于数学数据集中培训到LiveCodeBench代码生成任务时,Intuitor显示相对性能提高高达65%。在T taskcruxeval-o眼中,Intuitor的收益也达到76%,明显好于Grpo MeThod,仅获得44%的收益,并且没有显示代码生成任务的显着改善。这不仅允许模型在训练领域发展,而且还可以通过优化固有的自我确定主义信号来提高“元认知”能力。这可以表明它可以转移到全新的和结构上不同的任务中。除了具有MATH500(同一域)(同一域)和LiveCodeBench(迁移)(来源:ARXIV)的Math500(同一域)中受过训练的模型的性能的演变,以及针对特定任务的改进性能,本研究还揭示了Intuitor对模型行为的更深入影响。例如,直觉可以显着提高模型指令的合规能力,以评估符合指令的依从性,例如Alpacaebal,在参考点中取得了比GPO更好的结果。这意味着该模型不仅将学习如何充满信心地解决问题,还将学习如何和符合和更好地实施说明。更有趣的是,研究团队观察到,即使没有明确要求,也有一个由纯体训练的模型。它还自发产生更长的结构化推理链。例如,在CruxeVal-O任务方面,第一个模型以自然语言格式执行“自由思考”,然后以教学所需的JSON格式组织最终响应。在代码生成任务中也观察到了类似的“ pre -pre-自然语言推论”的现象。这种行为表明该模型倾向于打破复杂的问题,并更彻底地思考以增强一个人的“确定性”。这是推理能力的重要体现。此外,在学习的早期阶段,Intuit训练模型比GPO表现出比GPO更快的学习速度。这可能是由于自我确定性,连续意识和过程的内在奖励和指导S探索更有效的学习轨迹的模型。另一个重要的发现是,直觉所使用的在线自我确定机制(即随着模型策略的发展而动态调整奖励信号)可以有效地避免“盗版奖励”的问题。在加强学习中,如果奖励模型是静态的,则战略模型可以轻松地检测奖励模型中的脆弱性,并产生在表面上获得但实际质量差的输出。当通过实验比较使用固定的自我确定得分设备(离线)时,themodel迅速学习“骗局”得分设备生成冗余内容,从而导致性能阻塞。直觉在线机制可防止此问题,并确保其培训的稳定性和鲁棒性。 Xuandong Zhao是UCB的AI和博士后研究员文档的作者之一,他在社交网络中分享了研究过程。赵在一条推文中说种子始于去年秋天,当时学生Zhewei Kang主动与他联系以与研究联系。他们从两个重要的观察开始。一个是考试经常回答人们自身信任更精确的问题。另一个是较大的模型是否可以证明这种“信任模式是关于精确的”。这影响了对“自动化”概念的探索。图|相关的推文(来源:X)发现,现有的启发式方法,例如肠球和混乱,它们存在诸如随着样本量增加的输出长度,偏差和最低可扩展性的敏感性。然后他们提出了重要信息。测量均匀分布的每个令牌的输出分布与上述差异KL之间的距离。这构成了“自我确定”措施的基础,并制作了2月关于“通过自我确定可以实现的最佳和选择”的文件。 intuitor是自然的前任紧张和加深了这组研究思想,增加了选择对固有奖励的反应的标准的自我确定性,从而促进整个强化学习过程。如果这种方法有效,则可以提供一个很好的主意,以训练更加自主和通用的系统。潜力的新途径。通过消除对Repurexternal耳朵和人类监督的强烈依赖,Intuitor有望显着降低培训成本,并允许AI在缺乏以前的知识或很难获得反馈的新领域进行探索和学习。一些互联网用户评论说:“如果有效,您将在其他领域以及编程和数学中看到相同类型的进度。”图|相关评论(来源:X)第二,Intuitor的成功表明,以前训练的大型模型可以具有上面已知的更隐含的行为。以前的知识和能力可以通过适当的内部激励机制,表明了令人难以置信的推理和概括能力。此外,RLIF MARCO和自决作为本研究提出的基本奖励的想法可能对可以克服甚至克服人类能力的未来建设AI系统具有重要意义。一旦IA系统在人类评估以外的能力中获得能力时,基于内在的一致性和自决的学习机制就变得很重要。但是,当前的实验主要集中在相对较小的模型和集合上,并且应将滴度扩展到基本的大型模型和现实世界中更多样化的数据以进行未来验证。例如,一些研究人员担心“使用奖励”和“模型障碍”可能是大型模型的潜在障碍。图|相关评论(来源:X)实际上,团队通过将直观的模型扩展到大型模型(QWEN)发现了新的问题2.5-7b和Qwen2.5-14b)。他们说,最初的训练计划在最大的模型中导致严重的行为冲突。通过简化系统指示,调整学习率并增加样本响应的数量,学习过程达到了初始稳定性(团队强调这些配置是“首次调整尝试”,而不是对超级参数的积分优化)。但是,如果最终取决于使用真实值验证的复杂的超参数设置,以避免使用较大的模型奖励,则可以破坏Intuit方法的核心优势。因此,如何继续保持这种固有的奖励机制的有效性和非监督性质,这是一个重要的方向,值得在未来的研究中指出。参考文献:1.https://www.arxiv.org/pdf/2505.195902.https://x.com/xuandongzhao/status/1927272727093187494949102593.https://arxiv.org/pdf/2502.18581操作/optth
首页
电话
短信
联系