《wordbuddy企业级智能体实战》08 智能路由层：让AI的查询指令精准抵达正确数据源-尧图网络科技

你有没有遇到过这种情况：用户对AI助手说“帮我查一下昨天的销售数据”，AI直接去查了MySQL，结果因为数据量太大，等了30秒才返回，而实际上这些数据在Elasticsearch里只需要1秒就能查到。

更糟糕的是，AI可能还会生成一个全表扫描的SQL，把生产库搞死。

上周我一个朋友的公司就出了这个事故——他们的AI助手在查询销售报表时，直接对MySQL主库执行了SELECT * FROM orders WHERE create_time > '2024-01-01'，导致数据库CPU飙升到100%，线上业务中断了15分钟。

事后排查发现，问题出在AI的“智能”路由层——它只会根据关键词匹配数据源，完全没有考虑查询代价和性能。

今天，我就带你手把手构建一个基于代价模型的智能查询路由引擎，让WordBuddy的AI助手能像经验丰富的DBA一样，自动选择最优数据源，并生成高效的查询语句。

痛点拆解：为什么AI的“智能路由”常常不智能？

大多数AI查询路由的实现，都是基于关键词匹配的简单规则：

# 反例：简陋的关键词路由defnaive_route(query:str):"""这种路由方式有3个致命问题"""if"sales"inquery.lower()or"订单"inquery:return"mysql"# 不管数据量、不管时效性elif"log"inquery.lower()or"日志"inquery:return"elasticsearch"elif"user"inquery.lower()or"用户"inquery:return"clickhouse"else:return"mysql"# 默认路由，非常危险

这种实现的问题很明显：

忽略数据量级：MySQL里可能存着1亿条订单记录，而ClickHouse里只有最近30天的数据
不考虑查询复杂度：用户说“查一下”可能是要聚合分析，也可能是要明细数据
没有性能感知：不知道哪个数据源当前负载高，哪个慢查询在跑
无法自动优化：AI生成的SQL可能很差，但路由层不会检查

更隐蔽的坑是：当AI生成了一条“看起来正确”但性能极差的查询时，路由层应该做性能评估和改写，而不是直接转发。

核心方案：基于代价模型的智能路由引擎

我设计的方案核心是“三阶决策”：意图解析 → 代价估算 → 动态路由。先看完整代码，我再逐行解释：

importtimeimportjsonfromtypingimportDict,List,Optional,Tuplefromdataclassesimportdataclass,fieldfromenumimportEnumclassDataSourceType(Enum):MYSQL="mysql"CLICKHOUSE="clickhouse"ELASTICSEARCH="elasticsearch"@dataclassclassDataSourceInfo:"""每个数据源的元信息，用于代价估算"""type:DataSourceType host:strtable_name:strrow_count:int=0# 预估行数avg_row_size_bytes:int=1024# 平均行大小index_columns:List[str]=field(default_factory=list)current_load:float=0.0# 当前负载，0~1defestimated_scan_cost(self,columns:List[str])->float:"""估算全表扫描代价（毫秒）"""data_size=self.row_count*self.avg_row_size_bytes/1024# KB# 不同数据源的IO吞吐不同throughput={DataSourceType.MYSQL:50,# MB/sDataSourceType.CLICKHOUSE:200,# MB/sDataSourceType.ELASTICSEARCH:100# MB/s}scan_time=data_size/throughput[self.type]*1000# 转毫秒# 加上负载系数returnscan_time*(1+self.current_load*2)classQueryIntentParser:"""第一阶：解析用户查询意图"""defparse(self,query:str)->Dict:"""解析出查询类型、目标字段、时间范围等"""intent={"query_type":"unknown",# select, aggregate, search"target_tables":[],"time_range_days":None,"need_realtime":False,"aggregation_fields":[]}# 用简单规则做意图识别（实际可用LLM）ifany(wordinqueryforwordin["sum","avg","count","统计","汇总"]):intent["query_type"]="aggregate"elifany(wordinqueryforwordin["搜索","查找","search"]):intent["query_type"]="search"else:intent["query_type"]="select"# 提取时间范围（简化版）importre time_match=re.search(r'昨天|今天|最近(\d+)天|本月|上月',query)iftime_match:intent["time_range_days"]=1# 默认最近1天returnintentclassCostEstimator:"""第二阶：估算每个数据源的查询代价"""def__init__(self,data_sources:Dict[str,DataSourceInfo]):self.sources=data_sourcesdefestimate(self,intent:Dict,source_name:str)->Tuple[float,str]:"""返回 (预估代价毫秒, 建议查询语句)"""source=self.sources.get(source_name)ifnotsource:returnfloat('inf'),""cost=0.0suggested_query=""ifintent["query_type"]=="aggregate":# 聚合查询：ClickHouse最优，MySQL次之ifsource.type==DataSourceType.CLICKHOUSE:cost=source.estimated_scan_cost(["*"])*0.3# 向量化执行suggested_query=f"SELECT count(*), sum(amount) FROM{source.table_name}WHERE create_time > now() - 86400"elifsource.type==DataSourceType.MYSQL:cost=source.estimated_scan_cost(["*"])*2# 行存，聚合慢suggested_query=f"SELECT COUNT(*), SUM(amount) FROM{source.table_name}WHERE create_time > NOW() - INTERVAL 1 DAY"else:cost=float('inf')# ES不适合做聚合elifintent["query_type"]=="search":# 搜索查询：ES最优ifsource.type==DataSourceType.ELASTICSEARCH:cost=50# ES全文搜索固定低代价suggested_query=f"GET{source.table_name}/_search?q=keyword"else:cost=source.estimated_scan_cost(["*"])*5# LIKE查询代价高else:# 明细查询：看数据量cost=source.estimated_scan_cost(["*"])suggested_query=f"SELECT * FROM{source.table_name}WHERE create_time > '2024-01-01' LIMIT 100"returncost,suggested_queryclassDynamicRouter:"""第三阶：根据代价选择最优路由"""def__init__(self,data_sources:Dict[str,DataSourceInfo]):self.parser=QueryIntentParser()self.estimator=CostEstimator(data_sources)self.route_cache={}# 缓存路由决策defroute(self,query:str,user_id:str=None)->Dict:"""执行智能路由，返回最优数据源和优化后的查询"""# 1. 解析意图intent=self.parser.parse(query)# 2. 计算各数据源代价candidates=[]forsource_nameinself.sources:cost,suggested_query=self.estimator.estimate(intent,source_name)ifcost<float('inf'):candidates.append((cost,source_name,suggested_query))ifnotcandidates:return{"error":"没有可用的数据源"}# 3. 选择代价最小的candidates.sort(key=lambdax:x[0])best_cost,best_source,best_query=candidates[0]# 4. 记录路由决策（用于分析和调优）route_record={"query":query,"intent":intent,"chosen_source":best_source,"cost_ms":best_cost,"suggested_query":best_query,"timestamp":time.time()}self._log_route(route_record)return{"source":best_source,"query":best_query,"estimated_cost_ms":best_cost,"alternatives":[{"source":s,"cost":c}forc,s,_incandidates[1:3]]}def_log_route(self,record:Dict):"""记录路由日志，用于后续分析"""# 实际项目中写入日志系统或数据库print(f"[Route]{json.dumps(record,ensure_ascii=False)}")# 使用示例if__name__=="__main__":# 初始化数据源信息sources={"mysql_orders":DataSourceInfo(type=DataSourceType.MYSQL,host="192.168.1.10",table_name="orders",row_count=50_000_000,# 5000万行index_columns=["create_time","user_id"],current_load=0.7# 负载较高),"clickhouse_orders":DataSourceInfo(type=DataSourceType.CLICKHOUSE,host="192.168.1.20",table_name="orders_merge_tree",row_count=10_000_000,# 1000万行（最近30天）current_load=0.3),"es_logs":DataSourceInfo(type=DataSourceType.ELASTICSEARCH,host="192.168.1.30",table_name="orders_log",row_count=100_000_000,# 1亿条日志current_load=0.5)}router=DynamicRouter(sources)# 测试案例1：聚合查询result1=router.route("统计昨天的订单总金额")print(f"聚合查询路由结果：{result1['source']}, 预估代价：{result1['estimated_cost_ms']:.1f}ms")print(f"优化后查询：{result1['query']}\n")# 测试案例2：搜索查询result2=router.route("搜索订单号20240101开头的订单")print(f"搜索查询路由结果：{result2['source']}, 预估代价：{result2['estimated_cost_ms']:.1f}ms")print(f"优化后查询：{result2['query']}\n")# 测试案例3：明细查询result3=router.route("查一下昨天所有订单")print(f"明细查询路由结果：{result3['source']}, 预估代价：{result3['estimated_cost_ms']:.1f}ms")print(f"优化后查询：{result3['query']}")

这段代码的核心逻辑是：

QueryIntentParser：用规则+正则解析用户意图，识别查询类型、时间范围。实际生产环境可以接入LLM做更精准的意图识别。
CostEstimator：这是代价模型的核心。我用了三个参数估算扫描代价：
- row_count * avg_row_size：预估数据量
- throughput：不同数据源的IO吞吐能力（经验值）
- current_load：当前负载系数，负载越高代价越大
DynamicRouter：三阶决策的调度器。它不只是选择数据源，还会生成优化后的查询语句。比如聚合查询自动用ClickHouse的count()语法，而不用MySQL的COUNT(*)。

进阶技巧：带反馈的代价模型调优

上面的代价模型是静态的，实际环境会变化。我加入了一个反馈学习机制：

classAdaptiveCostEstimator(CostEstimator):"""带反馈的代价估算器"""def__init__(self,data_sources:Dict[str,DataSourceInfo]):super().__init__(data_sources)self.execution_history=[]# 记录实际执行时间defupdate_with_feedback(self,source_name:str,actual_ms:float,estimated_ms:float):"""根据实际执行时间调整代价估算"""source=self.sources.get(source_name)ifnotsource:return# 计算误差比error_ratio=actual_ms/estimated_msifestimated_ms>0else1# 调整吞吐量参数（学习率0.1）adjustment=1+(1-error_ratio)*0.1# 实际项目中需要更复杂的调整算法print(f"[Feedback]{source_name}: 估算{estimated_ms:.0f}ms, 实际{actual_ms:.0f}ms, 调整系数{adjustment:.2f}")self.execution_history.append({"source":source_name,"actual_ms":actual_ms,"estimated_ms":estimated_ms,"timestamp":time.time()})