当前位置：首页 > news >正文

提取式文本摘要：可审计、可调试、轻量级工业落地方案

news 2026/6/8 9:57:14

1. 这不是“AI写摘要”，而是一套可落地、可调试、可嵌入的文本压缩流水线

“Simple Text Summarizer Using Extractive Method”——光看标题，很多人第一反应是：“哦，又一个调用transformers库的demo”。但我在过去三年里带过17个文本处理类项目，从法院判决书自动摘要系统，到电商客服对话归因引擎，再到高校论文查重辅助工具，反复验证了一个事实：真正能进生产环境的摘要模块，90%以上都始于提取式（extractive）而非生成式（abstractive）方案。为什么？因为提取式不造新词、不编句子、不幻觉输出，它只做一件事：从原文中精准挑出最具信息密度的句子，按逻辑顺序拼成摘要。这就像老编辑用红笔在报纸上划重点，而不是让AI重写一篇新闻稿。

这个标题里的“Simple”二字，恰恰是最容易被误解的部分。它不是指“随便写几行代码就能跑通”，而是指架构简洁、依赖可控、推理确定、结果可追溯。我见过太多团队前期用BERT-based生成式模型做摘要，结果上线后发现：同一段产品说明书，模型每次生成的摘要长度波动±40%，关键参数名称偶尔被替换成近义词（比如“额定电压”变成“标准电压”），更麻烦的是——当客户质疑“为什么摘要里没提防水等级IP67”，你根本没法回溯到原文哪句话被漏掉了。而提取式方法天然解决这些问题：每句摘要都能在原文中找到原句编号，误差可定位、可修正、可审计。

适合谁参考这篇内容？如果你正在做以下任一事情，这篇就是为你写的：

需要给内部系统加一个轻量级摘要功能，但服务器资源有限（比如只有2核4G的边缘设备）；
处理的是专业领域文本（法律、医疗、技术文档），对术语准确性零容忍；
团队里没有NLP算法工程师，只有会Python的后端或数据工程师；
已有成熟文本清洗流程，只想插一个“摘要模块”，不想重构整个NLP栈。

它不承诺“媲美ChatGPT的文采”，但能保证：输入5000字招标文件，3秒内返回300字核心条款摘要，且每一句都来自原文第12段第3句、第48段第1句……这种确定性，在真实业务场景里，比“看起来更像人写的”重要十倍。

2. 为什么放弃生成式、死磕提取式？一套基于真实故障的选型推演

2.1 生成式摘要的三个“温柔陷阱”

去年帮一家医疗器械公司做说明书智能解析时，我们最初也上了生成式方案。模型在测试集上ROUGE-L得分高达0.68，客户看了演示直呼“太厉害”。但上线第一周就暴雷：

术语漂移：原文写“经FDA 510(k)认证”，模型摘要写成“获美国食品药品监督管理局批准”——看似更通俗，但法务部立刻叫停，因为“批准”和“认证”在医疗器械法规中是完全不同的法律效力；
事实压缩失真：原文描述“充电时间≤2小时（0%→100%），待机时间≥72小时”，模型摘要简化为“充电快、续航久”，丢失全部量化指标，销售部门无法用于客户沟通；
不可解释性：当质控部门问“为什么摘要里没提‘仅限室内使用’这一强制警示语”，我们翻遍attention权重图，发现模型把这句话分配了0.03的注意力值——但没人能说清为什么是0.03而不是0.3。

这三个问题，本质源于生成式模型的底层机制：它通过概率采样生成新token序列，过程中必然引入语义泛化、数值舍入和随机性。这不是bug，是设计使然。而医疗、金融、政务等强监管领域，恰恰最不能接受“设计使然”。

2.2 提取式方案的确定性优势：从数学原理到工程落地

提取式摘要的核心思想非常朴素：把文本摘要转化为句子级重要性排序问题。它的数学表达是：

给定原文S = {s₁, s₂, ..., sₙ}，求子集S' ⊆ S，使得|S'| = k，且∑ᵢ∈S' score(sᵢ)最大

其中score(sᵢ)是句子sᵢ的重要性得分。这个公式背后藏着三重确定性保障：

输入输出严格保真：S'中每个句子都是S的原始子集，无任何token被修改、替换或新增；
结果完全可复现：只要score函数确定、k值固定，同一输入必得同一输出；
错误可精确定位：若摘要漏掉关键句，只需检查该句的score(sᵢ)为何偏低，是预处理切句错误？还是特征权重设置不合理？

我们最终采用的方案是TF-IDF + 句子位置加权 + 关键词密度校准的三段式打分。选择它不是因为“最先进”，而是因为：

TF-IDF计算复杂度O(n)，10万字文档1秒内完成，比BERT-base单次前向传播快120倍；
所有中间变量（词频、逆文档频、句子位置索引）均可打印调试，新人花20分钟就能看懂score计算全过程；
当客户要求“必须包含所有带‘警告’‘注意’‘严禁’的句子”，我们只需在score函数末尾加一行if '警告' in s: score *= 5，5分钟热更新生效。

提示：别被“传统方法”这个词误导。在工业界，“能快速响应业务规则变更”的能力，远比“模型结构新颖”重要。我经手的12个NLP落地项目中，8个最终都回归到TF-IDF或TextRank这类可解释性强的老方法，只是用更精细的工程手段把它用深、用透。

2.3 为什么不用TextRank？一次被PDF解析坑惨的实录

TextRank确实是提取式摘要的经典算法，它把句子当作图节点，用共现关系构建边，再用PageRank迭代计算重要性。听起来很美，但我们在线上踩过一个致命坑：PDF解析导致的句子碎片化。

某次处理一份200页的电力设备手册PDF，用pdfplumber解析后得到1.2万条“句子”，但其中37%是类似“表3-5”“（续）”“见附录A”的碎片。TextRank算法把这些碎片也当作有效节点参与图计算，结果“表3-5”这个节点因为频繁出现在表格标题中，PageRank得分奇高，最终摘要里赫然出现三句“表3-5”……

而我们的TF-IDF方案天然免疫此问题：在预处理阶段，我们加入一条硬规则——长度<8字符或纯数字/符号组合的“句子”，直接过滤不参与打分。这条规则写在代码第17行，没有玄学，没有黑箱，运行时日志里清清楚楚写着“filtered 4322 short fragments”。

这再次印证我的经验：在真实数据场景中，鲁棒的预处理比炫酷的算法更重要。TextRank输在它假设输入句子都是语义完整的，而现实中的文本（尤其是PDF、扫描件、OCR结果）充满噪声。我们的方案赢在把“容错设计”写进了第一行代码。

3. 核心细节拆解：从一句话标题到可运行代码的七层打磨

3.1 文本预处理：不是“分句”那么简单，而是构建可信输入基座

很多教程把预处理一笔带过：“用nltk.sent_tokenize()切句就行”。但在实际项目中，这句话背后藏着至少五层需要手工打磨的细节：

第一层：PDF/Word源格式适配

PDF文档：必须用pdfplumber而非PyPDF2，因为后者对中文排版支持差，常把“第1章”和“绪论”切在同一句；
Word文档：用python-docx读取时，要遍历所有paragraph对象，跳过header/footer/footnote，否则摘要里会出现“页眉：XX公司机密”；
纯文本：需识别并清理ANSI转义序列（如\x1b[31m错误\x1b[0m），否则TF-IDF会把\x1b[31m当成有效词。

第二层：中文分句的三大雷区
中文没有英文句号那么“听话”，我们实测发现以下情况必须特殊处理：

省略号陷阱：原文“该参数……需谨慎设置”，nltk会切成“该参数……”和“需谨慎设置”两句，但前者无谓截断；解决方案：正则r'…{2,}'全局替换为'。'；
括号闭合干扰：原文“（详见GB/T 19001-2016）本条款适用于……”，nltk可能在括号后就切句；解决方案：先用栈匹配括号，确保）后紧跟标点才切；
数字序号误切：原文“1. 安装步骤 2. 调试方法”，会被切成三句；解决方案：正则r'\d+\.\s+'先行替换为'【NUM】'，切句完成后再还原。

第三层：句子有效性过滤（这才是关键）
我们定义“有效句子”必须同时满足：

长度≥15字符（排除“图1”“表2”等）；
中文字符占比≥60%（过滤乱码和纯英文术语表）；
不以“注：”“附：”“参见：”开头（这些是元信息，非正文内容）；
不含连续3个以上空格或制表符（OCR常见噪声）。

这段过滤逻辑在代码中只有12行，但贡献了摘要质量70%的稳定性提升。我建议你直接复制这12行到自己项目里——它比任何模型调参都管用。

3.2 TF-IDF打分：不只是调用sklearn，而是理解每个参数的业务含义

sklearn的TfidfVectorizer确实方便，但直接fit_transform()会踩三个坑：

坑一：stop_words参数的双刃剑效应
默认stop_words='chinese'会过滤“的”“了”“在”等高频虚词，这看似合理。但某次处理合同文本时，我们发现“甲方”“乙方”“丙方”也被当作了停用词（因在中文停用词表里高频出现），导致所有涉及主体责任的句子得分暴跌。解决方案：自定义停用词表，显式保留“甲方”“乙方”“本合同”“双方”等法律文本关键词。

坑二：ngram_range的业务敏感性
设ngram_range=(1,2)能捕获“数据安全”“网络安全”等双词术语，但也会把“的的”“了了”这种重复助词当二元组。我们最终采用动态策略：先用jieba精确模式分词，再对分词结果做ngram，这样“数据/安全”和“网络/安全”能被识别，而“的/的”因jieba不产出“的的”分词，自然被过滤。

坑三：sublinear_tf的隐蔽偏差
sublinear_tf=True会对词频做log(1+tf)压缩，让高频词优势减弱。这在新闻摘要中合理，但在技术文档中反而有害——比如“额定电流”在电机手册中出现200次，它本就该比只出现3次的“绝缘电阻”更重要。我们实测关闭此选项后，关键参数类句子召回率提升22%。

注意：所有这些调整都不是“为了调参而调参”，而是对应着真实业务约束。当你在写代码时，应该时刻问自己：“这个参数改动，会让法务部/工程师/客服人员在使用时少解释多少句话？”

3.3 句子位置加权：为什么第一章第一句永远比第五章最后一句重要？

TF-IDF只反映句子在全文中的统计重要性，但人类阅读习惯赋予了位置强信号：

技术文档中，第一章“概述”里的句子，往往定义核心概念；
新闻报道中，导语句（首段首句）必含5W1H要素；
合同文本中，“鉴于”条款后的首句常规定合作基础。

我们设计的位置权重函数是：

position_weight = 1.0 / (1 + log2(sentence_index)) # sentence_index从1开始计数，首句权重=1.0，第2句≈0.63，第4句≈0.5，第16句≈0.33

这个公式比简单线性衰减更符合认知规律——人类对前几句的记忆强度下降是指数级的。但关键在于：这个权重必须与业务强绑定。

例如给某银行做信贷报告摘要时，风控部明确要求：“所有‘风险提示’章节的句子，无论位置，权重×3”。于是我们在代码里加了一条业务规则：

if "风险提示" in section_title: final_score *= 3

这种“算法框架+业务钩子”的设计，让模型不再是黑箱，而是可配置的业务规则引擎。后来该银行把这套逻辑封装成配置文件，业务人员自己就能调整各章节权重，再也不用找工程师改代码。

3.4 关键词密度校准：把领域知识“编译”进打分函数

TF-IDF擅长发现通用关键词，但对领域专有术语力不从心。比如在电力系统文档中，“短路电流”“开断容量”“暂态恢复电压”这些词在通用语料库中IDF值很低（因出现少），但对工程师而言，它们就是黄金关键词。

我们的解决方案是双通道关键词注入：

通道一：静态词典——维护一个JSON文件，存各行业的核心术语及其权重系数，如{"短路电流": 5.2, "开断容量": 4.8}；
通道二：动态提取——对当前文档做TF-IDF，取top-20高idf词，人工审核后加入本次摘要的临时词典。

打分时，句子得分 = TF-IDF得分 × 位置权重 × (1 + Σ关键词密度 × 对应系数)。
其中“关键词密度”定义为：句子中该关键词出现次数 / 句子总词数。

这个设计让我们在某次变电站巡检报告摘要任务中，将“SF6气体泄漏”相关句子的召回率从61%提升至94%——因为我们在静态词典里给“SF6”配了权重8.0，而TF-IDF原本给它的权重只有0.3。

实操心得：不要试图用一个模型解决所有问题。把“通用统计规律”（TF-IDF）和“领域专家知识”（关键词词典）分开建模，再融合，才是工业级做法。就像老司机开车，既要看导航（算法），也要凭经验（规则）。

4. 完整实操流程：从空文件夹到可部署服务的13个关键步骤

4.1 环境初始化：为什么坚持用venv而非conda？

项目根目录下执行：

python -m venv .venv source .venv/bin/activate # Linux/Mac # .venv\Scripts\activate.bat # Windows pip install --upgrade pip pip install jieba pdfplumber python-docx numpy scikit-learn

选择venv而非conda，是因为：

conda环境在Docker容器中常因镜像源问题安装失败，venv几乎100%稳定；
我们不需要conda的多语言包管理（项目纯Python），反而要避免conda自带的numpy版本与sklearn不兼容；
venv生成的.venv文件夹可直接tar打包，运维同事一句tar -xf app.tar.gz && source .venv/bin/activate就能启动，比conda的environment.yml少5个出错环节。

注意：务必在requirements.txt中锁定版本号，如jieba==0.42.1。我们吃过亏——某次升级jieba到0.43，其默认分词模式从“精确”变为“搜索引擎”，导致所有技术术语被强行切开，“额定电压”变成“额定/电压”，TF-IDF彻底失效。

4.2 核心代码实现：逐行解读可复用的78行主逻辑

以下是summarizer.py的核心实现（已脱敏，可直接运行）：

import jieba import numpy as np from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import cosine_similarity class SimpleSummarizer: def __init__(self, max_summary_sentences=5, custom_stopwords=None): self.max_summary_sentences = max_summary_sentences self.stopwords = custom_stopwords or ["的", "了", "在", "是", "我", "有", "和", "就", "不", "人", "都", "一", "一个"] # 动态加载行业词典 self.industry_keywords = self._load_keywords("config/industry_keywords.json") def _load_keywords(self, path): """加载行业关键词词典，失败时返回空dict，不中断流程""" try: with open(path, 'r', encoding='utf-8') as f: return json.load(f) except: return {} def _preprocess_text(self, text): """七层预处理，此处展示关键三步""" # 步骤1：清理ANSI/HTML标签 text = re.sub(r'<[^>]+>', '', text) # 清HTML text = re.sub(r'\x1b\[[0-9;]*m', '', text) # 清ANSI # 步骤2：中文分句（处理省略号、括号、序号） sentences = re.split(r'(?<=[。！？；])|(?<=\.\.\.)', text) # 基础切分 sentences = [s.strip() for s in sentences if s.strip()] # 步骤3：句子过滤（长度、中文占比、开头特征） valid_sentences = [] for s in sentences: if len(s) < 15: continue if len(re.findall(r'[\u4e00-\u9fff]', s)) / len(s) < 0.6: continue if re.match(r'^[注附参见]：', s): continue if ' ' * 3 in s: continue valid_sentences.append(s) return valid_sentences def _calculate_keyword_boost(self, sentence): """计算句子中行业关键词的加成得分""" words = list(jieba.cut(sentence)) boost = 0.0 for word in words: if word in self.industry_keywords: boost += self.industry_keywords[word] * words.count(word) / len(words) return boost def summarize(self, text): sentences = self._preprocess_text(text) if not sentences: return "未检测到有效句子" # 构建TF-IDF向量（禁用sublinear_tf，保留原始频次强度） vectorizer = TfidfVectorizer( tokenizer=lambda x: list(jieba.cut(x)), stop_words=self.stopwords, ngram_range=(1, 2), sublinear_tf=False # 关键！不压缩高频词 ) tfidf_matrix = vectorizer.fit_transform(sentences) # 计算基础TF-IDF得分（每句的L2范数） base_scores = np.array(tfidf_matrix.sum(axis=1)).flatten() # 加入位置权重和关键词加成 final_scores = [] for i, s in enumerate(sentences): pos_weight = 1.0 / (1 + np.log2(i + 1)) keyword_boost = self._calculate_keyword_boost(s) final_score = base_scores[i] * pos_weight * (1 + keyword_boost) final_scores.append((i, s, final_score)) # 按得分排序，取top-k final_scores.sort(key=lambda x: x[2], reverse=True) top_sentences = final_scores[:self.max_summary_sentences] # 按原文顺序重组，保持逻辑连贯 top_sentences.sort(key=lambda x: x[0]) return "\n".join([s for _, s, _ in top_sentences]) # 使用示例 if __name__ == "__main__": summarizer = SimpleSummarizer(max_summary_sentences=3) with open("test_input.txt", "r", encoding="utf-8") as f: text = f.read() print(summarizer.summarize(text))

这段代码的精华不在算法多炫，而在每一处异常处理都对应着真实故障：

_load_keywords里的try-except，是因为某次客户把industry_keywords.json文件权限设为只读，没这个处理就会整个服务崩溃；
sublinear_tf=False的注释，是我们用200份技术文档AB测试后写下的血泪结论；
最后按原文顺序重组摘要，是因为用户反馈“按得分排序的摘要读起来像拼贴画，不如按原文逻辑顺”。

4.3 PDF解析专项：pdfplumber的12个隐藏配置技巧

处理PDF时，pdfplumber的默认配置会漏掉30%的关键信息。我们总结出必须修改的12个参数：

参数	默认值	推荐值	为什么改
`vertical_strategy`	"lines"	"text"	防止表格列被误判为竖线，导致文字错位
`horizontal_strategy`	"lines"	"text"	同上，解决横线干扰
`snap_y_tolerance`	3	15	让上下行文字在视觉上对齐，避免“第1章”和“绪论”被切开
`join_x_tolerance`	3	0.5	防止“电”和“压”被当成两个独立字符
`min_words_vertical`	3	1	确保单字标题（如“表”“图”）不被过滤
`keep_blank_chars`	False	True	保留空格，否则“GB/T 19001”变成“GB/T19001”
`use_text_flow`	True	False	关闭后按物理位置读取，避免OCR式乱序

这些参数不是凭空设定的，而是我们用pdfplumber.Page.to_dict()导出每页的字符坐标矩阵，用Python脚本分析127份典型PDF后得出的统计结论。比如snap_y_tolerance=15，是因为实测发现92%的技术文档行高在12~18pt之间。

4.4 Docker化部署：如何让服务在2核4G服务器上稳定扛住50QPS

Dockerfile内容如下：

FROM python:3.9-slim WORKDIR /app COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt COPY . . # 关键：限制内存和CPU，防止OOM CMD ["gunicorn", "--bind", "0.0.0.0:8000", "--workers", "2", "--worker-class", "sync", "--max-requests", "1000", "--timeout", "30", "--limit-request-field_size", "8190", "app:app"]

为什么选gunicorn而非Flask内置server？

Flask dev server是单线程，50QPS下延迟飙升；
gunicorn的--workers 2在2核机器上达到最佳吞吐，再多反而因进程切换损耗性能；
--max-requests 1000强制worker定期重启，避免jieba分词器长期运行导致的内存泄漏（我们实测jeba在持续分词10万句后内存增长17%）。

部署后用ab -n 5000 -c 50 http://localhost:8000/summarize压测，平均响应时间稳定在210ms，P99<400ms。这个性能足够支撑一个中型企业的内部文档中心。

5. 常见问题与排查技巧实录：那些文档里不会写的血泪教训

5.1 典型问题速查表

问题现象	根本原因	快速定位方法	解决方案
摘要全是“表X”“图Y”	PDF解析时未过滤短字符串	在`_preprocess_text`中加`print([s for s in sentences if len(s)<8])`	修改过滤条件：`len(s) < 15`
同一文档多次摘要结果不同	jieba分词启用`cut_all=True`模式	检查`jieba.cut()`是否传入`cut_all=True`参数	强制使用`jieba.cut(sentence, cut_all=False)`
中文标点被当词处理	TfidfVectorizer未指定`token_pattern`	`print(vectorizer.get_feature_names_out()[:10])`看是否含“。”“，”	设置`token_pattern=r'(?u)\b\w+\b'`
长文档摘要为空	内存溢出导致TF-IDF矩阵构建失败	`dmesg	tail`查看OOM killer日志
“警告”“注意”类句子未被高亮	行业词典路径错误或编码问题	`print(os.path.exists("config/industry_keywords.json"))`	统一用`open(..., encoding='utf-8-sig')`

5.2 一次深夜救火：当客户说“摘要里漏了最重要的那句话”

凌晨两点，某车企客户紧急电话：“你们的摘要系统漏掉了‘严禁在充电状态下启动车辆’这句，这是安全红线！”

我们立即执行三步诊断：

复现输入：用客户提供的原始PDF，确认该句确实存在于第42页第3段；
检查预处理：发现pdfplumber将该句解析为两行：“严禁在充电状态下”和“启动车辆”，因PDF中换行符打断；
验证打分：单独计算这两行的TF-IDF得分，发现“启动车辆”因词频低得分仅0.02，被过滤。

根因找到了：PDF换行导致语义完整句被物理切分。

解决方案不是改算法，而是加一条预处理规则：

# 在_preprocess_text中添加 sentences = re.split(r'(?<=[。！？；])|(?<=\.\.\.)', text) # 新增：合并被换行打断的句子 merged_sentences = [] for s in sentences: if not merged_sentences: merged_sentences.append(s) else: last = merged_sentences[-1] # 如果上一句不以结束标点结尾，且当前句较短，则合并 if not re.search(r'[。！？；]$', last) and len(s) < 20: merged_sentences[-1] = last + s else: merged_sentences.append(s)

凌晨三点上线热修复，客户六点上班时已看到正确摘要。这件事让我坚信：90%的NLP线上问题，根源在数据管道，不在模型本身。

5.3 性能优化实战：如何把10万字文档摘要从12秒压到1.8秒

初始版本处理10万字文档耗时12秒，主要瓶颈在TF-IDF向量化。我们通过三层优化达成1.8秒：

第一层：向量维度裁剪
TfidfVectorizer默认保留所有词，但技术文档中99%的词只出现1次。我们增加max_features=5000，只保留TF-IDF值最高的5000个词，耗时降至6.2秒。

第二层：稀疏矩阵优化
改用scipy.sparse.csr_matrix存储，并在计算前调用.eliminate_zeros()清除零值，内存占用降40%，耗时降至3.5秒。

第三层：并行分块处理
将长文档按章节切分为块，每块独立计算TF-IDF，最后合并向量：

# 伪代码 chunks = split_by_chapter(text) # 按“第X章”切分 chunk_vectors = [] for chunk in chunks: vec = vectorizer.fit_transform([chunk]) chunk_vectors.append(vec) final_vector = scipy.sparse.vstack(chunk_vectors)

这步利用多核CPU，最终耗时1.8秒，且内存峰值稳定在120MB以内。

注意：所有优化都经过AB测试验证。比如曾尝试用TruncatedSVD降维，虽提速到1.5秒，但导致“额定功率”“额定电压”等术语相似度计算失真，摘要质量下降，果断回滚。

6. 进阶扩展：当“Simple”遇上真实业务的五个生长点

6.1 从单文档到多文档摘要：如何生成跨文件知识图谱

某省级图书馆想用此系统处理1200份古籍数字化文本。单文档摘要已够用，但他们需要：“从所有《农政全书》相关文献中，抽取出关于‘水稻育种’的所有关键论述”。

解决方案是文档级TF-IDF + 句子级重排序：

先对1200份文档构建全局TF-IDF向量空间；
计算每份文档中“水稻育种”相关句子的全局得分；
按得分排序，取top-100句子，再用原文位置权重二次排序。

我们用这个思路，帮他们生成了首份《中国古代水稻技术演进摘要》，耗时23分钟（含IO），比人工整理快47倍。

6.2 与规则引擎联动：当法务部要求“必须包含所有违约责任条款”

客户法务部提出硬性要求：“摘要中必须100%包含所有含‘违约责任’的句子，无论得分高低”。

我们在summarize()函数末尾加了钩子：

# 强制包含违约责任句子 mandatory_sentences = [i for i, s in enumerate(sentences) if '违约责任' in s] for idx in mandatory_sentences: if idx not in [x[0] for x in top_sentences]: # 插入到摘要开头 top_sentences.insert(0, (idx, sentences[idx], float('inf')))

这种“算法为主、规则兜底”的混合模式，成了我们后续所有合规类项目的标配。

6.3 轻量级微调：用30句标注数据让模型更懂你的业务

如果客户有30句高质量人工摘要，我们可以用极小代价提升效果：

将这30句作为正样本，随机采样300句非摘要句为负样本；
训练一个逻辑回归分类器，预测句子是否该被选入摘要；
将分类器输出的概率作为新的final_score，替代原有TF-IDF打分。

我们用此法在某医疗器械客户处，仅用2天就将关键参数召回率从78%提升至93%。成本远低于重训BERT模型。

6.4 API服务化：如何设计一个让前端工程师愿意调用的接口

最终API设计为：

curl -X POST http://api.example.com/v1/summarize \ -H "Content-Type: application/json" \ -d '{ "text": "原文内容", "max_sentences": 5, "domain": "medical", # 自动加载medical_keywords.json "include_warnings": true # 强制包含警告类句子 }'

关键设计点：