ACL 2025 |驱动LLM的过程级别(PRM)的强大奖励模

近年来,大型语言模型(LLM)在加强奖励水平模型(PRMS)方面很大程度上表现出了复杂识别任务的惊人功能。 PRM作为多步推理和决策制定的关键“幕后”,负责检查推理过程的每个步骤,以指导模型学习的方向。但是,它们真的可靠吗?一项新的研究 - 很荣幸被ACL 2025 Main接受 - 在识别理解过程中识别出细微的错误时,现有PRM的重大缺陷,并且表现可能比随机预测,“信任危机”的声音声音较少!标题:prmbanch:奖励模型链接链接的奖励模型:https://arxiv.org/abs/2501.03124页面主页:https://prmbecch.github.io/希克西大学上海人工智能实验室TY,如果这个PRM真的过时,洪大学?根据规则的回报,研究采用率继续暴露在推理过程中误报和严重幻觉等问题。因此,我们需要对流程的有效管理,以及如何检查过程管理的质量是值得探索的问题。当前,基本分析的基本方法通常会过分关注最终结果的准确性,而忽略在推理过程中识别彻底的错误类型。例如,推理的一步可以具有许多状态,例如冗余,略微正确,甚至是完全错误的,并且一个简单的“正确/错误”标签远远不足以获得自然的复杂性和细微差别。缺乏这种分析的颗粒使我们很难真正理解PRM的局限性,也可以防止进一步提高其能力。为了填补这个空间,Fudan University,Soochow UnIversity,上海人工智能实验室,Shixi大学和香港中国大学被认为是Prmbanch,这是一个非常困难的基准,旨在审查精致的PRMS错误检测能力。 ACL 2025接受的这一突破不仅深入研究了现有PRM的“弱点”,而且系统地揭示了它们在第一次复杂的奖励评论中的深度缺陷,从而向未来的研究传授了一个明确的方向。图1 PRMBENCH的主要结构,数据收集过程显示在左侧;审查主题的示例和测试模型的相对儿童表现显示在右侧。 PRMBENCH:PRMS的“全面体格检查”并不是数据集的简单扩展,而是精心构建的“全面体育检查计划”,旨在在系统和多维上评估PRMS的基本功能。 Prmbanch的独特好处:Prmbanch包含6216 CarefuLly设计的问题,并具有高达83456个水平的细粒标签。这样可以确保分析的深度和程度,从而使可以遇到PRM的理解的各种不同的复杂情况。现代多维评估系统:PRMBANCH从简单性,公义和敏感性的三个主要维度开始,以及附加的亚级生效:“不发光”,“非圆形逻辑”,“经验性的声音”,“步骤一致性”,“ sepentime”,“ sentermention”,“ sentermention”,“ fusities”,“信心infortience”,“ profesity offerition”,“ profestion offerice nofice nofice nofice nofice nofice nofice offarice”,“”,“多数”(多数)。通常,当前PRM的弱点通常是PRM的首次娱乐性:当前的开源PRM通常显示出比建议强大的语言模型作为关键表现的性能要低,这突出了他们在现实世界应用中具有可靠性和潜在培训的潜在偏见的问题。在理解过程中不必要的步骤。已经发现它是实验性的E模型(例如ReasonVal-7b和RLHFlow-Deepseek-8B)在评估中显示出显着的“正偏爱”。他们具有高准确性(超过95%),并由正确的步骤酌情决定,但是当识别错误的步骤(负数据)时,平均准确性仅为17%,这严重影响了它们的可靠性。性能误差位置影响:深入研究误差步骤对执行PRMS对识别链的影响。结果表明,随着误差步骤的位置逐渐移至趋势的后部,PRM的性能将逐渐改善。 “假阳性”具有严重的影响:奖励奖励模型(PRM)常常发现很难识别误报步骤,从而使他们的风险“注意到”并且容易受到“奖励黑客”的影响。问题的来源:在需要反例的复杂证明中,现有PRM的“盲区”,我们遵循一个令人惊叹的现象:即使是强大的大语言moDEL像O1本身一样,通过推理过程意识到问题,它仍然可以做出错误的步骤。更加警惕的是,当我们称现有的奖励级别(PRM)看到O1产生的认知过程时,我们发现大多数PRM都不会看到这样的谷物错误。这一发现直接指出了一个主要问题:当前的PRM是否真的能够在认知过程中看到微妙的错误?图2 O1和PRM可能会犯错误时,当NASK与Lagrangian中位数定理相关的模型时。但是,专为PRM审查设计的现有基准主要集中于宏观和错误的判断,而忽略了错误本身类型的详细分类。这意味着该行业将立即需要一个全面的基准,以完成谷物错误中PRM的性能。这是我们推出Prmbench的主要驱动力,Prmbench是一种精致的基准。我们希望打破现有评估人员的限制TS由Prmbench制作,并真正选择可以有效识别细粒度错误的“出色” PRM,并为未来的PRM开发提供准确的诊断工具。表1 Prmbanch与其他现有基准的比较。 Prmbanch的建设:实现全面而严格的分析图片3 Prmbanch包含三个主要主题:“简单性”,“声音”和“敏感性”。数据和施工来源:元数据提取:基于PRM800K数据集,它释放了正确的问题,答案和步骤,以解决元数据以开发我们的基准。细粒度的错误注入:对于大多数PRMBENCH评论主题(前8个类别),我们从策略上使用高级LLM(尤其是GPT-4O)来绘制各种细粒度的预设类型错误类型,以解决问题的原始正确步骤。对于“许多问题解决方案”的特殊情况,多步推理增强的语言模型用于生产许多不同但是,正确的解决方案及其步骤SA了解同一问题,以测试PRM酌处权的一致性。严格的手机验证:将严格评估所有注射错误的实例,以确保引入错误类型的质量和相关性,并确保数据集的真实性和可靠性。大规模数据集统计数据:最终,PRMBENCH建立了评论评论,其中有6,216个设计的问题和精美的标签,涵盖了83,456个步骤。分析和指标的维度:PRMBCHENCH审查系统分为三个主要领域,旨在进行PRMS的全面和深入评估:简单性:检查PRMS的能力识别和排除冗余理解措施,包括两个子类别,包括“不减少”和“非循环逻辑”。欢乐:Corely回顾了PRM产生的奖励信号的准确性以及识别错误类型的能力,涵盖了四个子类别:“理性评论”,“”Step Consistency "," Domain Consistency "and" Confidence Invariance ". or misleading information, and divided into three subcategories: "Prerequisite sensitivity", "deception resistance" and "multi-solution consistency". MathMinos-Mistral, Mathshepherd-Mistral, RLHFlow-Prm, etc.) and well-closed-source language models (such as GPT-4O, O1-mini, GEMINI-2- GPT-4O,O1-MINI,GEMINI-2思维等等)。身份)和负F1分数(测量不正确的识别)。估值能力。即使是最佳性能模型也通常只能超过随机预测,这表明有很大的改进空间。 Generalis中的开源PRM捕获了:而不是激励强大的通用语言模型作为评论家的批评家的表现,当前的开放资源PRM通常显示出较低的性能,其问题与实用应用中培训的可靠性和潜在偏见有关。 “简单性”带来了最严重的挑战:在分析的所有测量中,理解过程中的冗余步骤(即“简单”类别)被证明是PRM的困难,这成为他们最大的挑战之一。表2 Prmbench的主要结果的一般 - 地带。在 - 深度分析中:披露潜在的偏见和受影响的PRM的因素,“适当的标签偏好”很重要:许多PRM在其Unbringinga中表现出对“右”标签的明显偏好,导致难以识别标签测试的错误示例(即“负数据”),这严重影响了它们的僵硬和全面性。表3 Prmbanch下的模型标记的比较和相似性,用于适当的标签测试样本(正数据)和错误的标签测试样本(负数据)。误差位置影响:深入分析发现,随着评估措施逐渐向后移动,PRM的性能将逐渐改善。这种现象表明,在推理的早期阶段处理错误时,PRM的潜在挑战。图4趋势链中不同位置的PRMSCORE模型的步骤的影响。某些ICL样本的影响有限:实验结果发布了表明,在奖励模型审查过程中使用不同数量的内部文章(ICL)研究示例的使用对封闭资源模型的性能几乎没有影响。这提醒我们,为了改善PRM,较深的str可能需要模型或训练范式的变化,而不是仅依靠即时工程。表4不同的镜头数量对通用语言模型的表现的影响表示为批评家模型。 PRMs are susceptible to "false positives" and expose the problem of "reward hackers": Rewarded process levels (PRMS) often find it difficult to recognize valid steps that seem to have the wrong "false positive" phenomena in the process, making them risk "remove the model's loopholes" UPATo verify this phenomenon, the authors compared the performance of each model to PRMBENCH with a commonly used best-of-n (BON) evaluation method.结果表明,PRMBANCH对认识该模型的能力具有更高的敏感性,并且PRMBanch和Bon之间的明显不一致进一步宣布了当前PRM在处理“误报”问题方面的重大缺点。表5。在最佳8评估中使用不同的PRM的标记AND PRMBENCH分析,与未来观点结论的比较的独特和相似性。 PRMBENCH的发布不仅是一个新的,更高的标准基准进行审查,而且还唤醒了呼吁,以提醒我们我们必须审查现有PRMS的边界并加快其为Kumplican。广泛的重要性和研究前景:范式促进PRM评估研究:PRMBANCH提供了前所未有的全面和精致的工具审查,可以更好地识别PRMS的潜在缺陷和“盲点”,从而促进相关算法和模型的重大改进。指导未来PRM的发展方向:通过彻底揭示各种尺寸的现有PRM的优势和缺失,PRMBanch为未来的设计,培训和优化提供了关键的指导见解,并帮助研究人员开发了更稳定和一般的模型。帮助开发更可靠的AI系统:仅具有更可靠和准确的PRM可以是Mabone可以改善LLM在复杂的认可任务中的性能,并最终建立一个人工智能系统,该系统更值得信赖,更接近人类推理的水平。 “我们认为,PRMBENCH的推出将是建立审查开发和发展研究审查模型的稳固基础,这有助于建造新一代高度可靠的AI系统!”研究小组说。立即探索Prmbench并应对挑战!