当前位置：首页 > news >正文

PA-GP-UCB算法：融合廉价预测与离线数据，高效求解昂贵黑盒优化问题

news 2026/5/26 15:03:54

1. 项目概述与核心价值在科学实验、药物发现、芯片设计乃至创意内容生成等众多领域我们常常面临一个共同的困境目标函数比如实验效果、药物活性、芯片性能、用户偏好的评估极其昂贵每次尝试都可能耗费大量时间、金钱或人力。然而我们手头往往又存在一些“廉价”但“粗糙”的信息源比如基于历史数据训练的机器学习模型、快速但精度有限的物理仿真或者像大语言模型LLM这样能快速给出“直觉”判断的工具。这些廉价预测虽然不能完全信赖但它们蕴含了宝贵的信息。如何将这些廉价的、可能有偏的预测与昂贵的、高保真的真实评估结合起来用最少的昂贵评估次数找到最优解是提升整个研发和探索流程效率的关键。这就是PA-GP-UCB算法要解决的核心问题。它不是一个从零开始的发明而是对经典贝叶斯优化框架GP-UCB的一次深刻且实用的增强。简单来说GP-UCB像一位谨慎的探险家只依靠自己昂贵但准确的测量仪高保真评估在未知地形中摸索前进。而PA-GP-UCB则像一位配备了卫星地图廉价预测和详细历史地形报告离线数据的探险家。卫星地图可能有偏差历史报告可能不完整但这位聪明的探险家懂得如何融合这些信息校正地图偏差并利用历史数据降低对未知区域的不确定性从而规划出更高效的探索路径用更少的实地测量昂贵评估找到宝藏最优解。它的技术价值非常明确在理论上它保持了与标准GP-UCB相同的渐进遗憾界Regret Bound即收敛速度的理论保证不变但在实际性能上它获得了一个严格更小的主导常数。这个常数的缩小程度直接由两个因素控制1) 廉价预测与真实目标的相关性预测质量2) 离线数据对搜索空间的覆盖程度数据覆盖率。这意味着只要你的预测模型不是完全胡猜你的历史数据不是完全没用PA-GP-UCB就能带来立竿见影的样本效率提升。在资源受限的现实场景中这直接转化为成本的降低和迭代速度的加快。2. 核心思路与算法设计拆解要理解PA-GP-UCB为何有效我们需要深入其设计哲学这远比直接看公式更有价值。整个算法的核心可以概括为“一个模型两个阶段一个巧妙的估计器”。2.1 核心建模双任务高斯过程算法的基础是将真实目标函数f(x)和机器学习预测函数f_ML(x)建模为一个联合的双输出高斯过程GP。这不仅仅是把两个GP放在一起而是用一个协方差矩阵B来刻画它们之间的相关性ρ。[ f(x) ] [ 1 ρ ] [ f_ML(x) ] ~ GP( 0, [ ρ 1 ] * k(x, x) )这个建模是精髓所在。它承认预测f_ML是有偏的均值可能不同但假设其波动模式与真实函数f存在相关性。相关性ρ越高预测提供的信息就越有价值。这个联合模型允许我们利用观测到的预测值来更新对真实函数的认知反之亦然。实操心得模型假设的实用性在实际中我们并不要求预测函数f_ML与真实函数f全局强相关。即使只是局部相关或者在函数的“形状”而非绝对数值上相关这个模型也能从中获益。算法中的控制变量估计器后文详述具备局部偏差校正的能力。因此在应用时一个在趋势上大致正确的预测模型例如LLM对假设的初步评分就足以启动算法并带来增益。2.2 两阶段流程离线准备与在线优化算法的执行清晰地分为两个阶段这对应了现实世界中“历史数据利用”和“在线实验决策”的典型工作流。第一阶段离线数据准备这个阶段的目标是利用廉价预测源快速对搜索空间进行初步“侦察”。算法采用了一种简单但有效的策略在定义域X上构建一个均匀的ε-net例如一个网格并在每个网格中心点重复查询预测源N次。ε-net的作用确保搜索空间内任意一点都有一个离线数据点在其ε邻域内。这为后续的GP插值提供了基础使得离线数据能全局性地降低预测函数f_ML的后验不确定性。重复查询N次的作用通过取平均将预测源在单个点的观测噪声方差从η_ML^2降低到η_ML^2 / N。这相当于用计算成本预测通常是廉价的换取了更精确的预测先验。这个阶段收集的所有数据D_off {(x_i, y_ML(x_i))}被用来训练一个“全局”高斯过程GP_all它包含了我们对预测函数最全面的认知。注意事项离线阶段的设计自由度原文中使用了均匀网格和重复采样这是一种理论分析友好的保守设计。在实践中如果对问题有先验认知例如某些区域更重要可以采用非均匀的、自适应的离线采样策略如基于预测方差或预测值大小可能用更少的样本达到更好的覆盖效果。关键在于最终衡量指标R后验方差缩减比是否足够小。第二阶段在线序列决策这是算法的主循环每一轮t都需要进行一次昂贵的高保真评估。具体步骤如下构建增强后验基于截至t-1轮的所有在线数据D_{t-1}以及离线数据D_off算法计算一个“预测增强”的估计量μ_t^PA(x)及其不确定性σ_t^PA(x)。这是算法的核心创新点。基于UCB的决策选择下一个评估点x_t使其最大化预测增强的上置信界PA-UCBφ_t(x) μ_t^PA(x) √β_t * σ_t^PA(x)。其中β_t是一个随时间增长的探索参数。观测与更新在x_t点同时获取昂贵观测y(x_t)和廉价预测y_ML(x_t)。用这对新数据同时更新“全局”GPGP_all和仅基于在线数据的“在线”GPGP_on。这里的关键在于第1步如何构建μ_t^PA(x)和σ_t^PA(x)这就引出了算法的灵魂——控制变量估计器。2.3 灵魂所在控制变量估计器这是PA-GP-UCB区别于“朴素”预测增强方法如简单将预测作为额外观测塞入GP的核心。其估计器形式如下μ_t^PA(x) μ_t^true(x) - [ ρ_t(x) * σ_t^true(x) / σ_t^ML(x) ] * [ μ_t^ML(x) - μ_t^ML,all(x) ]我们来拆解这个公式的每一项及其背后的统计学直觉μ_t^true(x)仅基于在线昂贵数据D_{t-1}对真实函数f(x)的后验均值估计。这是标准GP-UCB所使用的估计。μ_t^ML(x)同样仅基于在线数据D_{t-1}对预测函数f_ML(x)的后验均值估计。μ_t^ML,all(x)基于所有数据在线离线D_{t-1} ∪ D_off对预测函数f_ML(x)的后验均值估计。由于包含了大量离线数据这个估计通常比μ_t^ML(x)准确得多不确定性更低。残差项[ μ_t^ML(x) - μ_t^ML,all(x) ]这衡量了“仅用在线数据估计的预测值”与“用全部数据估计的预测值”之间的差距。这个差距的期望为零条件于在线数据但它包含了关于预测函数局部偏差的信息。系数ρ_t(x) * σ_t^true(x) / σ_t^ML(x)这是最优线性控制变量系数。它根据真实函数与预测函数在当前点x的后验相关性ρ_t(x)以及它们各自的不确定性σ_t^true(x)和σ_t^ML(x)来决定应该用多少残差来校正真实函数的估计。直观理解如果预测函数在x点与真函数高度相关ρ_t(x)接近1且在线数据对预测函数的估计很不确定σ_t^ML(x)较大那么μ_t^ML(x)可能不靠谱。此时μ_t^ML,all(x)由大量离线数据支撑提供了一个更可靠的“锚点”。两者之间的残差很可能反映了在线数据未能捕捉到的预测函数的系统偏差。将这个偏差经过相关性加权后从μ_t^true(x)中减去就实现了对真实函数估计的偏差校正。这个估计器的美妙之处在于它导出的后验方差(σ_t^PA(x))^2满足(σ_t^PA(x))^2 (σ_t^true(x))^2 * [ (ρ_t(x) * σ_t^ML,all(x) / σ_t^ML(x))^2 (1 - ρ_t(x)^2) ]可以证明这个方差永远小于或等于标准GP-UCB的后验方差(σ_t^true(x))^2。等号成立仅当ρ_t(x)0预测完全无用或σ_t^ML,all(x) σ_t^ML(x)离线数据未提供任何新信息。方差减小意味着不确定性降低UCB界更紧算法就能更自信地聚焦于潜在的最优区域从而减少不必要的探索提升样本效率。3. 算法实现与关键环节剖析理解了核心思想后我们来看如何具体实现PA-GP-UCB。这里不会罗列所有代码而是聚焦于几个最容易出错或需要深刻理解的关键环节。3.1 高斯过程协方差矩阵的构建与更新实现双任务GP是第一步。我们需要定义核函数k(x, x‘)如RBF核、Matern核和相关性矩阵B。在每一轮更新时数据点的排列顺序需要仔细处理。假设到第t-1轮我们有在线数据点X_on [x_1, ..., x_{t-1}]对应的观测向量为Y [y_1, ..., y_{t-1}]真实值和Y_ML [y_ML1, ..., y_ML_{t-1}]预测值。此外我们有离线数据点X_off和对应的预测观测Y_ML_off。构建联合协方差矩阵K_all对于“全局”GPGP_all我们需要构建一个大的协方差矩阵囊括所有点离线在线和所有任务真实预测。这是一个分块矩阵K_all [ K(X_off, X_off) ρ * K(X_off, X_on) K(X_off, X_on) ; ρ * K(X_on, X_off) K(X_on, X_on) ρ * K(X_on, X_on) ; K(X_on, X_off) ρ * K(X_on, X_on) K(X_on, X_on) ]这个矩阵的维度是(n_off 2*(t-1)) x (n_off 2*(t-1))。左上角块对应离线点之间的预测-预测协方差中间和右下角块对应在线点之间的真实-真实和预测-预测协方差非对角块则通过ρ关联不同任务。对应的观测向量为Y_all [Y_ML_off; Y; Y_ML]。噪声协方差矩阵为Σ_all diag(η_ML^2 * I_{n_off}, η^2 * I_{t-1}, η_ML^2 * I_{t-1})。对于新点x*我们需要计算它与所有点的交叉协方差向量k_all(x*)然后应用标准GP回归公式来计算后验均值μ_all(x*)和协方差。通常我们使用Cholesky分解来稳定地求解线性系统。避坑指南数值稳定性与计算效率正则化务必在协方差矩阵的对角线上添加一个小的“jitter”项如1e-6以防止由于数值误差导致的矩阵非正定。增量更新在线阶段每轮增加2个新观测一个真实值一个预测值。完全重新计算K_all的逆是不可行的。应使用秩一更新如Woodbury恒等式或分块矩阵求逆引理来增量更新后验分布的参数。这是工程实现中的关键优化点。超参数学习核函数的长度尺度l、方差σ_f^2以及任务间相关性ρ都需要从数据中学习。可以在离线阶段结束后使用D_off数据通过最大似然估计MLE或最大后验估计MAP初始化这些超参数。在线阶段可以每隔若干轮重新优化一次或者采用贝叶斯在线学习的方式。注意ρ的估计对算法性能影响较大。3.2 控制变量估计器的计算在每一轮对于候选点x我们需要计算三个后验量μ_t^true(x),σ_t^true(x): 来自仅基于在线数据D_{t-1}的GP (GP_on)。μ_t^ML(x),σ_t^ML(x),ρ_t(x): 同样来自GP_on。ρ_t(x)是GP_on后验中f(x)与f_ML(x)的相关系数。μ_t^ML,all(x),σ_t^ML,all(x): 来自全局GPGP_all但只提取对应于预测任务f_ML的分量。有了这些就可以直接代入公式计算μ_t^PA(x)和σ_t^PA(x)。3.3 优化器的选择与UCB最大化最大化φ_t(x) μ_t^PA(x) √β_t * σ_t^PA(x)是一个黑盒优化问题。φ_t(x)本身通常是一个非凸、多峰的函数。常用的方法有多起点梯度优化如果定义域X是连续且低维的如d10可以使用基于梯度的优化器如L-BFGS从多个随机起点开始优化选择最佳结果。全局优化算法对于中等维度可以考虑DIRECT、贝叶斯优化是的用BO来优化BO的采集函数或随机搜索。离散化对于维度稍高或定义域不规则的情况可以在一个大的随机采样点集或拉丁超立方采样点集上评估φ_t(x)然后选择最大值。这种方法简单可靠尤其适合与离线ε-net结合使用。参数β_t的选择对探索-利用权衡至关重要。理论分析给出了一个保守的选择β_t ∝ log(t^2/δ) d*log(t)其中δ是置信水平。在实践中这通常会导致过于激进的探索。一个常见的经验性调整是使用一个常数β如β2或β0.5或者使用β_t 0.2 * d * log(2t)等经验公式。需要通过实验在具体问题上调试。4. 实战应用以LLM驱动的假设生成为例PA-GP-UCB论文中展示了一个极具前景的应用场景利用大语言模型LLM作为廉价预测源来加速科学假设的生成与评估。这个场景完美契合了算法的设定人工评估假设昂贵高保真 vs. LLM初步评分廉价低保真。4.1 问题建模假设我们有一个关于用户行为干预的假设空间。每个假设x可以表示为一个文本描述如“发送带有损失框架提醒的短信”或者其在高维语义空间中的嵌入向量。我们的目标是找到能最大化某个真实用户行为指标如健身房访问量的假设。昂贵Oracle (f(x))进行A/B测试或小规模实地实验获取真实的用户行为数据。成本高周期长。廉价预测Oracle (f_ML(x))使用LLM如GPT-4、Claude等给定假设文本描述预测其可能的效果得分。成本极低瞬间完成。离线数据 (D_off)过去已有的实验数据或者我们可以用LLM对大量随机生成的假设进行批量评分构建一个初步的“预测地图”。4.2 实施步骤详解构建连续假设空间如果假设本身就是连续参数如药物分子结构、芯片设计参数则空间自然连续。如果假设是文本需要将其嵌入到连续空间。论文中使用TF-IDF向量化后再用UMAP降维到2维。关键这个嵌入需要保持语义相似性即语义相近的假设在嵌入空间中距离也近。也可以使用Sentence-BERT等句子嵌入模型。离线阶段在降维后的2维空间[0,1]^2上生成一个均匀网格ε-net。对于每个网格点找到其在原始高维嵌入空间中k近邻假设文本。将这些文本提示Prompt给LLM获取其预测评分y_ML。可以重复查询N次取平均以减少LLM输出的随机性。用(网格点坐标平均评分)数据对训练初始的GP_all仅预测任务。此时我们拥有了一个覆盖整个空间的、由LLM预测构成的粗糙响应面。在线阶段初始化基于离线数据学习GP的超参数核参数、相关性ρ、噪声水平η_ML^2。开始循环 a.优化PA-UCB在2维嵌入空间中寻找最大化φ_t(x)的点x_t。 b.解码与评估将x_t映射回原始的假设文本。一种方法是找到距离x_t最近的k个已有假设用LLM总结其共同模式生成一个新假设或者使用条件生成模型如VAE、扩散模型在嵌入点x_t处生成新假设。 c.获取昂贵反馈对新生成的假设进行人工评估或设计小实验得到真实得分y_t。 d.获取廉价预测将同一假设文本再次输入LLM得到预测评分y_ML_t。 e.更新模型将数据对(x_t, y_t, y_ML_t)加入数据集更新GP_on和GP_all。结果解读算法最终会收敛到一个最优区域x*。我们可以检查x*附近的假设它们往往具有相似的语义模式。例如在论文的案例中最优假设都围绕着“结合相对较大、频繁的、与表现挂钩的金钱激励以及基本的规划和提醒框架”这一主题。4.3 针对LLM预测的特殊处理提示工程PromptingLLM预测的质量高度依赖于提示词。论文尝试了三种方式K-shot校准在提示中给出K个真实假设及其真实效果的例子让LLM进行类比预测。仅尺度信息只告诉LLM效果的大致范围最小值、最大值、平均值让其预测。实验发现即使只提供尺度信息LLM也能提供一个具有全局信息相关性约0.8的预测这对PA-GP-UCB来说已经足够有效。处理LLM输出随机性LLM对同一输入的多次输出可能有波动。这可以被建模为预测噪声η_ML^2。在离线阶段进行重复采样 (N1) 正是为了降低这种噪声的影响。偏差与相关性LLM的预测可能存在系统性偏差比如普遍乐观或悲观但只要这种偏差与真实效果存在相关性即好的预测相对好差的预测相对差PA-GP-UCB的控制变量机制就能对其进行校正。5. 常见问题、调参经验与避坑指南在实际部署PA-GP-UCB时你会遇到一系列工程和算法上的挑战。以下是我从经验中总结的一些关键点和解决方案。5.1 超参数选择与敏感性分析相关性ρ的初始化与学习问题ρ是算法性能的关键。如果初始值设得离真实值太远早期收敛会受影响。对策在离线阶段结束后可以利用D_off数据通过最大似然估计来初始化ρ。如果在线数据积累到一定量如20-30个点可以重新优化ρ。也可以将其视为一个随机变量用贝叶斯方法为其设置先验并更新后验。经验即使ρ的估计有误差只要不是完全错误如符号相反算法通常仍能工作但效率会打折扣。一个保守的策略是从一个中等值如0.5开始让数据来修正它。探索参数β_t问题理论值过于保守导致过度探索收敛慢。对策从一个小常数开始如β0.5或1.0观察算法是否过于贪婪陷入局部最优或过于探索进展缓慢。可以设计一个简单的衰减策略如β_t β_0 / sqrt(t)。一个实用技巧在前期t较小使用较大的β鼓励探索后期减小β聚焦利用。核函数与长度尺度问题不合适的核函数或长度尺度会导致模型拟合不佳。对策对于连续空间RBF平方指数核或Matern核如Matern 5/2是默认的好选择。长度尺度可以通过离线数据的最大似然估计来初始化。如果搜索空间各向异性显著应考虑使用自动相关性确定ARD核为每个维度学习独立的长度尺度。5.2 计算复杂度与可扩展性复杂度瓶颈GP推理的复杂度是O(n^3)其中n是数据点总数离线在线。当n很大时如超过几千计算将成为瓶颈。可扩展性解决方案稀疏GP近似使用诱导点Inducing Points方法如稀疏变分高斯过程SVGP或随机特征展开将复杂度降至O(m^2 n)其中m n是诱导点数量。局部GP在优化采集函数时只使用x附近的数据点来构建局部GP模型。分治策略对于超高维问题可以考虑将搜索空间分解或者使用随机嵌入Random Embedding结合PA-GP-UCB。离线数据筛选如果离线数据量巨大不必全部使用。可以先进行聚类选择聚类中心点作为代表或者选择预测不确定性高的区域的数据。5.3 当预测质量很差时ρ ≈ 0如果预测与真实目标完全不相关控制变量估计器中的系数会趋于零算法会退化为标准的GP-UCB。这是安全的你只是没有获得增益但也不会比原来更差。ρ 0负相关这是更棘手的情况。如果预测与真实值负相关算法可能会被严重误导。解决方案在算法中监测在线估计的ρ_t(x)。如果发现其值持续为负且显著可以强制将其截断为0或一个很小的正数或者触发一个保护机制暂时忽略预测信息回归到标准GP-UCB。预测存在局部误导如论文图1所示预测可能在全局正相关但在局部区域如最优解附近是负相关或误导性的。PA-GP-UCB的优势在于它通过在线数据实时估计局部相关性ρ_t(x)。在误导区域ρ_t(x)会降低从而自动减少对预测的依赖更多地相信昂贵数据。5.4 与多保真优化的区别这是一个重要的概念区分。多保真优化Multi-fidelity Optimization也处理不同成本的评估源但其核心是在每一轮决策要查询哪一个保真度的源目标是最大化单位成本下的收益。而PA-GP-UCB的设定是每次进行昂贵查询时廉价预测是“免费附赠”的。它不进行保真度选择而是专注于如何利用这个“免费”的附带信息来提升单次昂贵查询的决策质量。因此PA-GP-UCB的遗憾Regret只计算昂贵查询的次数不计算廉价查询的成本。这在LLM预测成本近乎为零的场景下是非常合理的。5.5 离线阶段的设计权衡ε网格密度 vsN重复次数有限的离线预算总查询次数网格点数 M * 重复次数 N如何分配增大N更精确的局部估计能更有效地降低预测噪声对于噪声大的预测源如波动大的LLM特别有用。减小ε更密的网格覆盖能更好地降低空间各处的预测不确定性对于变化剧烈的函数更有用。经验法则如果对预测函数的平滑性有信心即它变化缓慢可以优先减小ε以扩大覆盖。如果预测噪声是主要问题则优先增大N。一个平衡的做法是先进行一个小规模的预实验来估计预测噪声和函数粗糙度。最后我想分享一点最深的体会PA-GP-UCB的强大之处在于它提供了一种原则性的、自适应的信息融合框架。你不需要一个完美的预测模型也需要海量无偏的历史数据。只要预测包含一些信号历史数据覆盖了一些区域算法就能从中榨取价值并自动根据在线反馈调整对预测的信任程度。这种将领域知识通过预测模型、历史数据与在线主动学习无缝结合的能力正是解决现实世界中昂贵优化问题的关键。在尝试将任何启发式方法或“专家直觉”融入自动化搜索流程时PA-GP-UCB都提供了一个坚实的贝叶斯基础值得你将其纳入工具箱。

查看全文

http://www.zskr.cn/news/1392693.html