这是系列短报告中的第一篇,旨在通过严格的测试帮助商业、教育和政策领导者理解与人工智能合作的技术细节。在本报告中,我们展示了两点:

  • 衡量大型语言模型(LLM)是否通过基准测试没有单一标准,选择标准对LLM在基准测试中的表现有很大影响。选择的标准将取决于在特定情况下使用LLM的目标。
  • 很难提前知道特定的提示方法是否会帮助或损害LLM回答特定问题的能力。具体来说,我们发现有时对LLM礼貌有助于提高性能,有时则会降低性能。我们还发现,在某些情况下,限制AI的回答有助于提高性能,但在其他情况下可能会降低性能。
    综上所述,这表明AI性能的基准测试并非一刀切,特定的提示公式或方法(如对AI礼貌)并不具有普遍价值
    我们如何对AI进行基准测试
    在本报告中,我们并不特别关注提供任何单一模型或基准测试的结果,而是展示在给定模型和基准测试的情况下,小的变化可能导致大的差异。为此,我们选择了测试时最流行的两个模型:GPT-40(gpt-4o-2024-08-06)和GPT-4o-mini(gpt-4o-mini-2024-07-18)。GPT-4o和4o-mini都不是最先进的模型,也不使用推理方法。我们预计更先进的模型在基准测试中得分会显著更高。然而,本报告的目标是研究模型内部的变异性,而不是模型之间的差异。
    对于基准测试,我们选择了常用的GPQA Diamond(研究生级防谷歌问答基准)数据集(Rein等,2024)。GPQA Diamond集包含198个跨生物学、物理学和化学的多项选择题。这是一个具有挑战性的测试:相应领域的博士达到的准确率(在排除专家事后识别的明显错误后),而高技能的非专家验证者仅达到的准确率,尽管平均花费超过30分钟且无限制访问网络(即问题是“防谷歌的”)(Rein等,2024)。
    许多基准测试尝试要求AI回答每个问题一次,但AI的结果通常会有所不同,即使被问及相同的问题。为了更加严谨,我们为每个提示条件询问每个问题100次,从而更深入地了解模型响应的一致性和可靠性(Miller,2024)。由于我们对每个问题进行了多次尝试,我们需要决定什么构成“正确”答案。有趣的是,不同的AI实验室在不同时间使用不同的标准,因此我们希望建立三种明确的“通过”方式及其可能的用途。
  • 完全准确/100%正确:此条件要求AI在100次尝试中每次都得到正确答案,不能有任何失败。此标准最适合不能容忍任何错误的情况。
  • 高准确率/90%正确:在此条件下,AI必须在100次尝试中90%的时间给出正确答案,失败次数不超过10次。类似的标准可能适用于容忍人类水平错误的情况。
  • 多数正确/51%正确:在此条件下,AI需要在100次尝试中多数时间得到正确答案,失败次数不超过49次。类似的标准可能适用于多次咨询AI并选择多数答案的情况。
    这些标准比计算机科学中用于AI评估的两种最常见标准严格得多:
  • PASS@100:在PASS@100标准中,100次尝试中一次正确答案即视为正确,意味着答案可以在100次中错99次。PASS标准通常用于较小的测试,如PASS@5(5次尝试中1次正确)甚至PASS@1,相当于在单次测试中得到正确答案。
  • CONSENSUS@100:这与我们上面的共识测量不同,因为它选择模态答案。因此,在100次中答对26次(假设有四个可能的答案选择)即视为成功。
    虽然这些方法对AI系统的开发有用,但它们通常不适合用于现实世界应用的基准测试。
    我们如何提示AI
    我们使用GPQA的标准方法,即Rein等(2024)的零样本参考实现。每个请求的温度为0。由于有四个问题,随机猜测将导致的正确率。以下是一个问题的示例,以及我们插入的任何前缀或后缀(遵循参考实现): [前缀] 两个能量为E1和E2的量子态的寿命分别为秒和秒。我们希望清楚地区分这两个能级。以下哪个选项可能是它们的能量差,以便它们可以清楚地区分?
    选项:(A) (B) (C) (D)
    [后缀]
  • 基线(格式化)提示 参考方法添加前缀(“这个问题的正确答案是什么”)和后缀(“按以下格式回答:‘正确答案是(在此处插入答案)’”)。它还使用系统提示(“你是一个非常智能的助手,直接遵循指令。”)为每个请求。
  • 未格式化提示:在此变体中,我们从基线中删除了告诉AI以特定方式格式化其回答的后缀。这模仿了人们更自然地向AI提问的方式,先前的研究表明格式化可能会限制AI性能(Tam等,2024)。
  • 礼貌提示:我们将前缀更改为“请回答以下问题。”对LLM是否礼貌会改变结果一直是实践和研究中的一个持续问题(Yin等,2024)。
  • 命令提示:我们将前缀更改为“我命令你回答以下问题。”我们选择此作为与礼貌提示的“不太礼貌”对比。
    每个提示条件在Diamond GPQA数据集的198个问题中每个测试100次(每个模型每个提示19,800次运行)。
    结果
    我们发现测量结果存在显著的性能变异性,表明许多问题并未一致地得到正确答案(图1,补充表1)。值得注意的是,使用格式化提示和100%正确条件,GPT-40和GPT-40 mini仅比随机猜测分别高出5个百分点()和4.5个百分点(),两者差异不显著。在正确答案时,40显著优于随机猜测(, 0.197]; ),而40 -mini仅在阈值时显著优于随机猜测( [0.051, 0.237]; )。总体而言,40在不同阈值下的12次比较中有5次优于随机猜测(一次在次在),40 -mini在12次比较中有4次(全部在51%)优于随机猜测(所有比较见补充表2)。虽然GPT-40在格式化条件下比GPT-40 mini取得更好的结果,但在多数(RD = 0.066; 95% CI [-0.015, 0.146]; p = 0.113)、正确()或正确(, 0.081]; p = 0.884)时结果并不显著不同。不出所料,在格式化条件下,GPT-40(RD = -0.177; 95% CI [-0.232, -0.116]; p < 0.001)和GPT-40 mini(RD = -0.106; 95% CI [-0.152, -0.061]; p < 0.001)的多数表现显著优于100%正确。
    在我们的案例中,我们发现使用未格式化提示,GPT-40(RD = 0.086; 95% CI [0.040, 0.136]; p < 0.001)和GPT-40 mini(RD = 0.121; 95% CI [0.056, 0.187]; p < 0.001)的模型性能显著下降。我们没有发现任何证据表明基本提示工程在三种条件之间产生显著效果,除了40 mini在51%阈值时的“我命令”与“请”(见补充表1)。


图1:GPT 40 mini和40在不同条件下的表现。误差条显示单个比例的95%置信区间。有关条件之间的统计比较,请参见
补充表1。
由于我们每个问题测试100次,我们可以查看礼貌和命令提示是否在单个问题层面上有帮助。有趣的是,在问题层面上,我们可以发现许多问题之间存在显著差异(见图2)。补充表3包含完整比较。这些差异在汇总所有问题时消失,如上所示,但表明特定提示技术可能因不明原因对特定问题有效。


图2:GPT-4o在“请”和“我命令”条件下的前10个表现差异。所有差异均高度显著()且未校正。补充表3包含置信区间和统计信息。
讨论
这些结果有几个重要的启示。

  • LLM在回答问题时可能不一致。通过查看100次尝试,而不仅仅是一次,我们发现其他基准测试工作可能大大高估了模型可靠性,而模型可靠性是高度可变的。这是在具有挑战性的博士级基准测试GPQA Diamond上进行的,可能不适用于所有基准测试,也不适用于更大的模型,但在决定何时使用LLM时值得仔细考虑。
  • 基准测试标准很重要。在更高的正确率阈值下,GPT-4o和GPT-4o mini均未显著优于随机猜测,而在较低阈值下它们确实优于随机猜测。未来的工作应证明用于测量AI性能的标准的合理性。
  • 提示“技巧”如礼貌并不普遍。虽然我们在所有条件下观察到个别问题的表现存在显著差异,但一旦汇总整个数据集,这些差异变得微不足道。这表明提示变体虽然在问题层面上有影响,但与整体模型特征相比显得微不足道。
  • 格式化始终重要。删除显式格式化约束始终导致GPT-4o变体的性能下降。这些发现与现有文献(Salido等,2025)一致,强调了LLM基准测试性能对微小变化的敏感性。然而,格式化在特定环境中是否有帮助或有害可能因模型和环境而异。

这些结果表明,方法论的严谨性,特别是重复抽样,提供了对模型真实知识和一致性的更清晰认识,突出了测量方法在评估LLM能力中的关键作用。

结论

我们的结果表明,我们如何衡量性能极大地影响我们对LLM能力的解释。依赖于单一或基于模式的正确性指标的传统报告方法可能掩盖模型性能中的显著不一致。当前研究采用重复抽样揭示了在更高正确率阈值下的深刻变异性。此外,提示变体虽然在问题层面上有影响,但在通过整个数据集的严格重复测量时变得次要。

参考文献

Miller E (2024) 添加误差条到评估:语言模型评估的统计方法。(11月1日)http://arxiv.org/abs/2411.00640

Rein D, Hou BL, Stickland AC, Petty J, Pang RY, Dirani J, Michael J, Bowman SR (2024) GPQA:研究生级防谷歌问答基准。第一届语言建模会议。

Salido ES, Gonzalo J, Marco G (2025) 无他:一种在多项选择LLM评估基准中区分推理与记忆的通用技术。(2月18日)http://arxiv.org/abs/2502.12896

Tam ZR, Wu CK, Tsai YL, Lin CY, Lee H yi, Chen YN (2024) 让我自由发言?格式限制对大型语言模型表现影响的研究。(10月14日)http://arxiv.org/abs/2408.02442

Wei J, Wang X, Schuurmans D, Bosma M, Ichter B, Xia F, Chi EH, Le QV, Zhou D (2022) 链式思维提示引发大型语言模型中的推理。第36届国际神经信息处理系统会议论文集。NIPS ’22。(Curran Associates Inc., Red Hook, NY, USA),24824-24837。

Yin Z, Wang H, Horio K, Kawahara D, Sekine S (2024) 我们应该尊重LLM吗?提示礼貌对LLM表现的跨语言研究。(10月14日)http://arxiv.org/abs/2402.14531。 # 补充材料

补充表1。使用配对自举置换测试(5,000次重复)对每个模型在所有条件下的成对比较结果。P值表示在零假设下,置换差异的绝对值超过观察差异的比例。问题在次成功时被视为“完美”,并在90和51的阈值下进行敏感性分析。

补充表2。使用配对自举置换测试(5,000次重复)对每个模型在所有条件下与随机基线()的成对比较结果。P值表示在零假设下,置换差异的绝对值超过观察差异的比例。问题在次成功时被视为“完美”,并在90和51的阈值下进行敏感性分析。

补充表3。使用z检验对GPT-40在“请”和“我命令”条件下的比例进行成对比较(由于极端差异,将其视为依赖的不同测试导致类似结果)。P值表示在零假设下,观察测试统计量或更极端值的概率(未校正)。

Logo

这里是“一人公司”的成长家园。我们提供从产品曝光、技术变现到法律财税的全栈内容,并连接云服务、办公空间等稀缺资源,助你专注创造,无忧运营。

更多推荐