本文由加州大学伯克利分校、德克萨斯大学奥斯汀分校、斯坦福大学、普林斯顿大学与 Together AI 的研究团队共同完成。研究团队致力于探索大语言模型推理优化、多模型协同与高效计算等前沿方向。
本文作者Monishwaran 和 Leon Lakhani 来自 UC Berkeley,研究方向为大语言模型。指导教师是UT Austin 助理教授徐晨丰(研究方向为高效机器学习)和Stanford 教授 James Zou(研究方向为机器学习、计算生物学等)。
每个大语言模型都有其能力天花板。增加推理预算、生成更多候选、运行更多优化循环 —— 单个模型只是在重复同样的先验知识、同样的失败模式、同样的盲点。其生成的答案种群会逐渐收敛并停滞不前。
如果突破天花板的方法不是更大的模型,而是一套协同进化的模型系统呢?
这就是 Squeeze Evolve 的核心理念:一个多模型进化框架,通过编排具有不同优势、失败模式和推理风格的模型,在无需任何外部验证器的情况下,产生任何单一模型都无法单独实现的能力。
研究背景
测试时扩展(Test-time Scaling)通过生成多个候选答案并通过选择和重组进行迭代优化,使模型能够「更深入地思考」。当与外部验证器配合使用时,这种进化方法已在代码生成和科学发现领域取得突破。
然而,在许多重要领域(例如等离子体模拟、湿实验室实验、开放式数学推理等),验证要么成本过高、速度过慢,要么根本不可用。进化必须在没有真实反馈的情况下进行。
这就是无验证器进化,它面临一个根本性问题:单模型种群会崩溃。
没有外部校正时,模型会放大它已经知道如何识别和重现的轨迹。丢弃数量极少但正确的方案。因此,多样性在进化中至关重要。一旦多样性丧失,就无法恢复,后续循环只能重组幸存轨迹的后代,陷入狭窄的解空间模式。
这就是为什么单纯扩大单个模型的推理预算会遇到收益递减。瓶颈不是算力,而是多样性。
方法概述
不同模型具有不同的先验知识、不同的训练数据分布、不同的失败模式。当它们参与同一个进化过程时,能够维持单一模型无法独立保持的互补谱系。
一个推理模型可能擅长多步逻辑推理,但在空间推理上表现不佳。一个指令微调模型可能整体较弱,但带来不同的归纳偏置,保留了推理模型会剪枝的解决路径。即使是一个小得多的模型也能做出有意义的贡献 —— 不是因为它 individually 更强,而是因为它以不同的方式犯错。
这就是 Squeeze Evolve 能够超越任何单一模型能力的机制。多模型编排不仅仅是成本工程 —— 它是能力放大器。
研究团队发现了三个关键实证结果:
实验评估
研究团队在数学推理、视觉理解、科学发现等多个领域进行了系统验证。相比单模型 RSA 基线:
总结与展望
Squeeze Evolve 的核心洞见是:单个模型的天花板不是模型系统的天花板。
通过将现有的测试时扩展方法统一到共同的进化框架中,研究团队揭示了一个设计空间,在这个空间中,模型根据它们的能力在何处具有最高边际效用被分配到进化角色。结果不仅仅是更便宜的推理 —— 而是真正更强的推理。协同进化的模型产生它们单独无法产生的解决方案。
这将测试时扩展从「在更大的模型上花更多钱」重新定义为多模型系统优化问题。前沿不是仅由单个模型能力推动的 —— 而是由你如何智能地编排已有模型推动的。