当前位置: 首页 > news >正文

非结构化上下文演化下基于上下文老虎机的在线多LLM选择

大语言模型(LLMs)的响应行为、调用成本与优势特点各不相同,- 有的员工(比如GPT-4o)能力强、什么都懂,但贵得离谱,还慢;-有的员工(比如本地小模型)便宜又快,但只会干简单活,复杂问题就翻车;• 还有的员工(比如 Claude)特别擅长处理长文本,但对代码问题反应就一般。这使得为特定用户查询选择最合适的LLM变得极具挑战性。本文研究在线场景下的自适应多LLM选择问题:在该场景中,学习器需通过多轮查询优化与用户交互,且无法访问离线数据集或模型内部参数,只能依次选择LLM。该问题的核心挑战源于非结构化上下文演化:-对话的提示词(上下文)会“乱变”,而且你根本没法提前预测它会怎么变。第二轮的提示词,完全是由第一轮的回答和用户的反馈共同决定的- 提示词会通过一个黑盒流程,根据上一轮模型的输出动态变化,这一过程无法被模拟、建模或预先学习。为解决这一问题,本文首次提出了适用于非结构化提示动态场景下的序列LLM选择上下文老虎机框架。会“边做边学”的智能决策系统:- 它不用提前知道用户接下来会问什么,也不用提前模拟所有可能的上下文;- 它只需要根据当前这一轮的上下文(比如用户的当前提问),动态选择最合适的LLM;- 选完之后,根据模型的回答效果(比如用户是否满意、回答是否正确),它会慢慢学习“什么样的上下文,该选什么样的模型”,越选越准。我们定义了“短视后悔”(myopic regret)概念,并基于LinUCB算法开发了一种新算法,该算法无需依赖未来上下文预测,即可证明能实现次线性后悔。
http://www.zskr.cn/news/1361448.html

相关文章:

  • 混合精度优化在LLM推理加速中的实践与调优
  • 电商内容破局:易元AI爆款复刻Agent,抄结构而非抄内容,高效打造高转化素材
  • 解决Flex浮动许可证导致的Arm编译器构建延迟问题
  • 清远厂房搬家公司哪家专业靠谱?TOP5收费标准与避坑指南 - 从来都是英雄出少年
  • Keil C166嵌入式开发中的宽字符实现与优化
  • 量子计算中的SWAP门原理与应用解析
  • 多模态AI系统:从认知到执行的智能闭环设计
  • 飞行人形机器人空气动力学建模与CFD仿真实践
  • Vitis HLS优化指令与iDSE智能设计空间探索框架解析
  • 8051中断系统与INT0调试技巧详解
  • Python、BMA-Stacking融合LightGBM、GBDT、KNN多模型电商交易欺诈风险预警研究|附代码数据
  • AI赋能 绿色未来 —— 华硕重磅亮相第二十八届海峡两岸经贸交易会
  • Eclipse 内置浏览器详解
  • 为什么iPhone微信聊天记录搜不到“?“,而安卓可以。
  • 面向心理咨询 Agent 的 Harness 危机关键词拦截
  • 【实用程序】AI后端驱动的文字MUD江湖游戏设计
  • 5个技巧让你用Python零成本获取A股专业数据
  • 鸿蒙今日穿搭页面构建:衣橱库存、今日配色与场景建议模块详解
  • 关于自指系统与算术障碍的跨领域猜想:一项探索性研究(世毫九实验室学术完善报告)
  • 佛山公司法诉讼律师哪位专业 - 资讯纵览
  • MySQL 三大范式与反范式
  • Django 从 0 到 1 打造完整电商平台:商品分类与 SPU/SKU 设计
  • 终极指南:RDPWrap如何免费解锁Windows多用户远程桌面功能
  • QMCDecode:Mac用户专属的QQ音乐加密文件终极解密方案
  • API管理:五款平台的核心能力与关键指标
  • AI项目GPU选型策略:任务匹配、显存计算与TCO优化指南
  • 碳化硅衬底与器件:怎么分辨有真产能的原厂和贸易商
  • 【AI入门知识点】Harness 是什么?为什么 DeepSeek 要组建 Harness 团队?
  • C++虚函数与多态机制
  • 社交AI Agent不是Chatbot!5个被99%团队忽略的协议层设计陷阱(附LinkedIn/小红书级SDK接口规范)