论文:Vector Policy Optimization: Training for Diversity Improves Test-Time Search作者:Ryan Bahlous-Boldi, Isha Puri, Idan Shenfeld, Akarsh Kumar, Mehul Damani, Sebastian Risi, Omar Khattab, Zhang-Wei Hong, Pulkit AgrawalarXiv: 2605.22817🎭 第一章:优秀学生的困境想象一所精英高中。这里的学生个个成绩优异,考试总是能拿满分。但有一天,学校决定改革——不再出固定答案的选择题,而是举办一场开放式辩论赛。辩题复杂多维,没有唯一正确答案,评委的打分标准也因人而异。结果令人震惊:那些平时考试最优秀的学生,在辩论赛中表现平平。他们习惯于寻找"唯一正确答案",面对需要多维度权衡的开放问题时,他们的思维变得僵化、单一、缺乏弹性。反而是一些平时成绩中上的学生——他们习惯于从不同角度思考问题——在辩论赛中大放异彩。这不是虚构的故事。这是当前AI领域正在发生的真实困境。大语言模型(LLM)——那些驱动着ChatGPT、Claude、Gemini的庞大神经网络——已经取得了惊人的成就。它们能写诗、能编程、能通过法律考试、能诊断疾病。但一个根本性的转变正在发生:LLM不再是独立部署的组件,而是被嵌入到更大的推理时搜索流程中。AlphaEvolve用进化算法搜索最优代码。Best-of-N采样让模型生成多个