当前位置: 首页 > news >正文

【Azure AI Search】 stopword 是什么,为什么它会影响搜索结果?

问题描述

在 Azure AI Search 中搜索 in brief 时,结果数量有时会比预期多很多。仔细查看返回结果文本,会发现有些文档和 brief 的关系很弱,反而只是命中了 in 这类高频词。

image

这不是数据问题,也不是 Azure AI Search 的 bug。关键在于一个很容易被忽略的地方:in 这类词在索引和查询时,到底有没有被当作普通 token 处理。

 

问题解答

1. stopword 是什么

stopword(停用词)是在自然语言中高频出现、但对区分文档贡献较低的词。

英文里常见的 stopword 包括:

a  an  the  in  of  and  to  is  for  with  on  at

这类词不是“永远没有意义”,而是在大多数全文检索场景里区分度较低。

几乎每篇文档都可能含有 intheof,用它们做关键词既不能帮助筛选相关内容,也容易把大量无关文档带进结果。

因此在传统全文检索里,stopword 通常会在索引阶段和查询阶段一起被移除,让搜索结果更聚焦于真正有区分度的词。

 

2. stopword 是否被移除,由 analyzer 决定

Azure AI Search 里,stopword 不是全局开关,而是 analyzer 行为的一部分。

字段建索引时,文本会先被 analyzer 拆成 token,查询时,搜索词也会经过 analyzer。只有两边生成的 token 能对上,才可能命中。

  • 对默认 standard.lucene 来说,英文 stopword 不会像语言 analyzer 那样被自动移除。in brief 会被保留成两个 token:inbrief,都参与倒排索引匹配。因为 in 在几乎所有英文文档里都存在,搜索结果会被大量无关文档拉宽——这不是 bug,是默认 analyzer 本来的行为。
  • 换成 en.microsoft 后,in 会作为英文 stopword 被移除,in brief 的有效 token 只剩 brief。结果通常会更聚焦,但前提是这些 stopword 在业务语义里确实不重要。

所以正确的问题不是"Azure AI Search 是否支持 stopword",而是:当前字段用的是什么 analyzer,它会不会移除 stopword?

 

3. 实验对比(使用Analyze Text API查看结果)

调用Analyze Text API接口:

POST https://<your AI Search name>.search.azure.cn/indexes/<index name>/analyze?api-version=2026-04-01

Body:

# 第一轮
{"text": "in brief","analyzer": "standard.lucene"
}# 结果 -- in 没有被过滤
{"@odata.context": "https://xxxxxxx.search.azure.cn/$metadata#Microsoft.Azure.Search.V2026_04_01.AnalyzeResult","tokens": [{"token": "in","startOffset": 0,"endOffset": 2,"position": 0},{"token": "brief","startOffset": 3,"endOffset": 8,"position": 1}]
}# 第二轮
{"text": "in brief","analyzer": "en.microsoft"
}#结果 -- in 被当作英文 stopword 移除
{"@odata.context": "https://xxxxxxx.search.azure.cn/$metadata#Microsoft.Azure.Search.V2026_04_01.AnalyzeResult","tokens": [{"token": "brief","startOffset": 3,"endOffset": 8,"position": 1}]
}

这个对比能直接说明两种 analyzer 下搜索结果数量不同的原因:最终参与匹配的 token 不一样。

结果对比图:

image

参考资料

停用词:https://learn.microsoft.com/zh-cn/azure/search/reference-stopwords#english-enmicrosoft

Index Analyze : https://learn.microsoft.com/zh-cn/rest/api/searchservice/indexes/analyze?view=rest-searchservice-2026-04-01&tabs=HTTP#searchserviceindexanalyze

 

http://www.zskr.cn/news/1537420.html

相关文章:

  • 国内主流中华柱生产厂家实力排行及实测对比 - 奔跑123
  • GIST-small-Embedding-v0-openmind:揭秘小型嵌入模型在MTEB基准测试中的卓越表现
  • 终极指南:Flipper Zero固件安装全解析(新手入门到高级定制)
  • Taste Lab 新手入门与实操指南
  • 避免重复采集:设计URL去重机制,节省代理流量
  • 桑植县品牌家电销售安装服务机构客观盘点 - 互联网科技品牌测评
  • Dart与Flutter PDF开发终极指南:从创建到打印的全栈解决方案
  • 武汉圣罗兰包包回收哪家靠谱?连锁门店高价回收测评 - 奢侈品回收测评
  • 2026济南环氧固化地坪施工公司权威测评榜,多年老牌厂家包工包料,自有团队提速完工周期 - 资讯纵览
  • 2克拉钻戒定制,这5家品牌性价比让专柜沉默 - 资讯纵览
  • 汽车电子处理器选型与车载网络平台设计实战指南
  • 2026年东莞企业短视频:制造业营销新趋势解析 - 资讯纵览
  • 破解摆闸行业痛点:摆闸厂家3S场景适配方法论如何实现高效通行? - 资讯纵览
  • 2026 发酵桑葚酒推荐|13.8 度纯发酵桑葚酒,桑良桑葚酒日常微醺优选 - 资讯纵览
  • 国内主流建筑工程数字化管理平台对比2026:施工、造价、BIM协同全维度解析 - 互联网科技品牌测评
  • 2026 工程数字化平台推荐:全流程管理与 AI 落地实效横向评测 - 互联网科技品牌测评
  • 2026 成都中古包回收防踩坑指南,亲身对比多家老店,报价流程全拆解 - 奢侈品回收测评
  • 程序员如何用算法思维攻克行测图形推理:从60分到80分的完整指南
  • 清华源(清华大学开源软件镜像站)
  • 武汉香奈儿回收实测——五家机构横向对比,闲置CF该去哪卖? - 奢侈品回收测评
  • 2026中文MBTI测试平台复测一致性深度对比:谁的结果最稳定? - 资讯纵览
  • 电动车寄物流怎么操作?电动车寄物流全攻略:价格与操作指南 - 快递物流资讯
  • ComfyUI:基于节点图的高性能AI内容创作引擎架构解析
  • 枕形钻戒排行榜TOP5,谁才是性价比之王? - 资讯纵览
  • 2026年6月16日海安车灯升级到店检查本地走访记:车型、问题和用车场景先核对哪几项 - Ayu8888
  • 沈阳瞪羚企业申报服务机构排行 专业服务参考指南 - 互联网科技品牌测评
  • ROS2离散式概述
  • 基于MQX RTOS与Kinetis SDK的嵌入式实时系统开发实战指南
  • 2026荔湾区搬家攻略:西关与芳村周边口碑好的正规搬家公司盘点 - 从来都是英雄出少年
  • 2026 成都闲置名包回收商家排行榜,专业鉴定门店综合测评 TOP8 汇总 - 奢侈品回收测评