Squeeze Evolve：无需验证器实现推理新SOTA

本文由加州大学伯克利分校、德克萨斯大学奥斯汀分校、斯坦福大学、普林斯顿大学与 Together AI 的研究团队共同完成。研究团队致力于探索大语言模型推理优化、多模型协同与高效计算等前沿方向。

本文作者Monishwaran 和 Leon Lakhani 来自 UC Berkeley，研究方向为大语言模型。指导教师是UT Austin 助理教授徐晨丰（研究方向为高效机器学习）和Stanford 教授 James Zou（研究方向为机器学习、计算生物学等）。

论文链接：https://arxiv.org/abs/2604.07725 项目主页：https://squeeze-evolve.github.io 代码仓库：https://github.com/squeeze-evolve/squeeze-evolve

每个大语言模型都有其能力天花板。增加推理预算、生成更多候选、运行更多优化循环 —— 单个模型只是在重复同样的先验知识、同样的失败模式、同样的盲点。其生成的答案种群会逐渐收敛并停滞不前。

如果突破天花板的方法不是更大的模型，而是一套协同进化的模型系统呢？

这就是 Squeeze Evolve 的核心理念：一个多模型进化框架，通过编排具有不同优势、失败模式和推理风格的模型，在无需任何外部验证器的情况下，产生任何单一模型都无法单独实现的能力。

研究背景

测试时扩展（Test-time Scaling）通过生成多个候选答案并通过选择和重组进行迭代优化，使模型能够「更深入地思考」。当与外部验证器配合使用时，这种进化方法已在代码生成和科学发现领域取得突破。

然而，在许多重要领域（例如等离子体模拟、湿实验室实验、开放式数学推理等），验证要么成本过高、速度过慢，要么根本不可用。进化必须在没有真实反馈的情况下进行。

这就是无验证器进化，它面临一个根本性问题：单模型种群会崩溃。

没有外部校正时，模型会放大它已经知道如何识别和重现的轨迹。丢弃数量极少但正确的方案。因此，多样性在进化中至关重要。一旦多样性丧失，就无法恢复，后续循环只能重组幸存轨迹的后代，陷入狭窄的解空间模式。

这就是为什么单纯扩大单个模型的推理预算会遇到收益递减。瓶颈不是算力，而是多样性。

方法概述

不同模型具有不同的先验知识、不同的训练数据分布、不同的失败模式。当它们参与同一个进化过程时，能够维持单一模型无法独立保持的互补谱系。

一个推理模型可能擅长多步逻辑推理，但在空间推理上表现不佳。一个指令微调模型可能整体较弱，但带来不同的归纳偏置，保留了推理模型会剪枝的解决路径。即使是一个小得多的模型也能做出有意义的贡献 —— 不是因为它 individually 更强，而是因为它以不同的方式犯错。

这就是 Squeeze Evolve 能够超越任何单一模型能力的机制。多模型编排不仅仅是成本工程 —— 它是能力放大器。

研究团队发现了三个关键实证结果：

初始化主导最终准确性：

当候选集足够强时，弱模型是强大的聚合器：

模型置信度预测哪里需要能力：

实验评估

研究团队在数学推理、视觉理解、科学发现等多个领域进行了系统验证。相比单模型 RSA 基线：

AIME 2025：

MMMU-Pro：

ARC-AGI-V2：

圆堆积问题：

在所有 8 个基准测试上成本降低 1.4–3.3x，吞吐量提升 4–10x

总结与展望

Squeeze Evolve 的核心洞见是：单个模型的天花板不是模型系统的天花板。

通过将现有的测试时扩展方法统一到共同的进化框架中，研究团队揭示了一个设计空间，在这个空间中，模型根据它们的能力在何处具有最高边际效用被分配到进化角色。结果不仅仅是更便宜的推理 —— 而是真正更强的推理。协同进化的模型产生它们单独无法产生的解决方案。

这将测试时扩展从「在更大的模型上花更多钱」重新定义为多模型系统优化问题。前沿不是仅由单个模型能力推动的 —— 而是由你如何智能地编排已有模型推动的。