知识库文档清洗：垃圾进垃圾出-尧图网络科技

先把结论甩在前面：RAG 检索答不准，八成不是模型菜，是你喂进去的文档脏。页眉页脚、PDF 抽出来的乱码、同一段话复制了三遍——这些垃圾不清掉，召回的 chunk 里全是噪声，模型再聪明也是在垃圾堆里翻东西。下面是我这两个月踩出来的清洗清单,按重要性排,直接抄。

背景交代一下。我给公司搭了个内部制度问答的小工具,把 200 多份 PDF/Word 规章塞进知识库。第一版上线当天就翻车——同事问"年假怎么休",它给我回了一句页脚里的"第 12 页共 38 页机密文件请勿外传"。当场社死。后来我老老实实做了下面这套清洗,准确率从能用都谈不上,提到大概八成能直接采纳。

1. 砍掉页眉页脚和水印行

这是头号杀手。PDF 每页底部那行"公司名+页码+日期",抽文本时会被当正文一起切进 chunk。200 页文档就是 200 条"XX公司第N页"的污染。

我的做法:按行频统计。同一行文本在文档里出现超过页数的 70%,基本就是页眉页脚,直接删。

from collections import Counter lines = [l.strip() for l in text.split("\n") if l.strip()] freq = Counter(lines) page_count = text.count("\f") + 1 # \f 是分页符 trash = {l for l, c in freq.items() if c > page_count * 0.7} clean = [l for l in lines if l not in trash]

坑:有些正文标题也会高频出现(比如每章都有"注意事项"),阈值卡太低会误伤。我调到 0.7 才稳。

2. 干掉 PDF 抽取产生的乱码字符

PDF 转文本最爱吐两类垃圾:一是字体没映射好的�(就是那个◇问号方块),二是连字ﬁﬂ这种把 fi/fl 黏一起的怪东西。还有 Word 里复制来的全角空格、零宽字符 ,肉眼看不见,但会让"年假"和"年假"被当成两个词。

import re, unicodedata text = unicodedata.normalize("NFKC", text) # 全角转半角、连字拆开 text = text.replace("", "").replace("�", "") text = re.sub(r"[ \t]+", " ", text)

NFKC这步省了我一堆事,连字、全角数字、奇怪空格一把梭。

3. 去重——逐字重复和近似重复都要管

制度文档最爱大段复制粘贴。我那批文件里,"本制度自发布之日起施行"这句话出现了 41 次。完全一样的好处理,set 一下就行;难的是改了俩字的近似重复。

我用 MinHash 做近似去重,相似度超过 0.9 的段落只留一段。小批量嫌麻烦的话,直接拿段落前 50 个字做 key 粗筛也能挡掉大半。

重复类型	检测手段	处理
完全重复	哈希/set	直接删
近似重复(改几字)	MinHash / SimHash	留一条
表格被拆多份	看是否连续相同表头	合并