北外研发的轻量级定性编码工具：预装6套语言学编码方案，支持HTML可视化标注与导出-尧图网络科技

本文还有配套的精品资源，点击获取

简介：北外团队开发的桌面端语料标注工具，专为语言学定性分析设计，无需安装，双击BFSU Qualitative Coder 1.2.exe即可运行。内置6套.ini格式编码方案文件，覆盖评价系统（appraisal）、时体特征（tense_aspect_for_pearstories）、人称指代（person_reference）、拼写错误识别（error_tagging）、正负向自动标注（autocoding1_positive/autocoding2_for_aspect_and_person_reference）等常见分析维度。每个编码项可配置缩写、起止标签、颜色值、图标路径和说明文字，确保HTML导出结果清晰可辨。配套提供PEAR故事语料（如SPCHZSTUD08590217.txt）、测试用dummy文本及SPEN系列样本，开箱即用。导出功能基于.tpl模板生成HTML，样式由.css、color.css统一控制；html_color_codes目录内置常用色值速查表；前端交互由h.js和c.js简易支撑；图标资源（1.ICO–9.ICO）与默认样式（default.ico、color.htm）均已就位。整个工具以本地化、低依赖、高可配为特点，适合手工细粒度编码或辅助规则型自动标注。
我用这款工具做了三年语言学编码，从硕士论文到博士后项目，几乎没换过主力标注软件。它不像主流NLP平台那样堆砌AI模型，而是把“人怎么思考语言现象”这件事抠到了像素级——比如你在标一个评价性词汇时，不是简单打个标签，而是要决定它是attitude（态度）、engagement（介入）还是graduation（级差），每个子类下还有颜色、图标、缩写、HTML起止标记的完整映射。这种设计背后，是北外语言学团队对系统功能语法（SFL）和评价理论（Appraisal Theory）长达十年的实操沉淀。它不教你怎么分析，但每一步操作都在悄悄训练你建立分析直觉。关键词里说的“定性编码工具”“语料标注软件”“北外语料分析”，其实都只是表层；真正值钱的是它把一套成熟、可复现、可教学的语言学分析范式，压缩进了一个12MB的.exe文件里，连.ini配置文件的字段命名都带着课堂板书式的清晰感：abbr=ATT,begin=,color=#FF6B6B,ico=3.ICO,description=态度资源：表达情感、判断或鉴赏。如果你正在做话语分析、叙事研究、二语习得中的错误模式挖掘，或者需要向学生演示“为什么同一个动词在不同语境中承载不同评价意义”，那这个工具不是辅助，而是分析思维的脚手架。它不开源，不联网，不依赖Python环境，双击即用——这恰恰是语言学田野工作者最需要的确定性。

1. 工具定位与整体设计逻辑拆解

1.1 它不是另一个“带UI的正则替换器”，而是一套可执行的分析语法手册

市面上很多标注工具，本质是文本高亮+导出表格的增强版记事本。它们把“编码”理解为“贴标签”，于是界面堆满下拉菜单、快捷键、多级分类树，结果用户花半小时配好规则，一上手却发现：标完之后根本没法回溯当初为什么选这个代码？为什么这里没选那个近义代码？更别说多人协作时，A标了“介入”，B标了“对话化”，C标了“异言”，三个人其实说的是同一回事——只是术语体系没对齐。

BFSU Qualitative Coder的设计起点完全不同：它把编码方案本身当作第一公民。你看它的资源包结构，.ini文件不是藏在某个配置目录深处，而是平铺在根目录，名字直接告诉你用途：codelist01_appraisal.ini对应马丁的评价系统，codelist02_tense_aspect_for_pearstories.ini专为PEAR故事语料的时体分析定制，codelist04_autocoding2_for_aspect_and_person_reference.ini甚至暗示了自动编码的触发逻辑。这不是功能罗列，而是分析路径的显性化。

我第一次打开codelist01_appraisal.ini时，被里面一段注释震住了：

; ATTITUDE: 情感/判断/鉴赏三元结构 ; - affect: 直接情绪反应（如happy, terrified） ; - judgment: 对行为的社会评价（如brave, dishonest） ; - appreciation: 对事物价值的审美判断（如elegant, clumsy） ; ENGAGEMENT: 对话立场管理 ; - monogloss: 单一声源（如"It is true that..."） ; - heterogloss: 引入他者声音（如"He claimed that...", "Some argue..."） ; GRADUATION: 强度与聚焦调节 ; - force: 强度放大/缩小（如very, slightly, absolutely） ; - focus: 聚焦细化/泛化（如specifically, generally, a kind of）

这段文字不是说明书里的“使用说明”，而是马丁《Working with Discourse》第4章的浓缩版。它没教你“怎么点按钮”，但它在你每次选择abbr=JUDG前，已经把你拉回理论原点：你标的是判断，不是情感；你标的是社会规范评价，不是个人好恶。这种设计让工具本身成了理论复习器——学生边标边重建知识框架，导师批注时能一眼看出理论误用在哪一层。

1.2 “轻量级”的真实含义：零依赖、零抽象、零妥协

很多人看到“轻量级”第一反应是“功能缩水”。但这款工具的轻量，是战略性的极简。它不支持云端同步，不提供API接口，不集成BERT微调模块，甚至没有“项目管理”概念——所有语料就是单个.txt文件，所有编码规则就是单个.ini文件，所有导出样式就是单个.tpl模板。

这种“反现代”的设计，恰恰解决了语言学实证研究中最痛的三个问题：

可复现性灾难：我审过不下十篇硕士论文，作者声称用了某标注平台，但三年后我根本找不到当年那个版本的Docker镜像，更别说其内部的规则引擎如何解析嵌套标签。而BFSU工具的所有逻辑都明文写在.ini和.tpl里。你今天用codelist02_tense_aspect_for_pearstories.ini标完SPCHZSTUD08590217.txt，五年后重装系统，只要exe和ini文件还在，导出的HTML就分毫不差。我在2021年标的一组PEAR故事数据，2024年用同一套文件重新导出，连span标签的class名顺序都完全一致。
教学穿透力不足：给本科生讲“时体系统”，如果直接扔给他们一个带机器学习建议的智能标注器，学生记住的只有“点绿色按钮=完成”。而用这个工具，他们必须亲手编辑.ini文件：当abbr=PERF（完成体）的begin设为，end设为，color=#4ECDC4，ico=5.ICO，这个过程本身就是一次微型语法建模——他们在定义“完成体”在视觉层、符号层、语义层的三重锚点。
跨设备协作断层：语言学田野常需在无网络的乡村学校、图书馆古籍室工作。我带学生去云南做彝语叙事采集，用的是借来的旧笔记本，Win7系统，连Chrome都打不开。但BFSU Qualitative Coder 1.2.exe在那台机器上运行丝滑，因为它的全部依赖就是Windows API和内置的IE渲染引擎（通过h.js/c.js调用）。导出的HTML在手机浏览器里打开，颜色、图标、层级关系全在。这才是真正的“轻量”——不是体积小，而是对运行环境的侵略性为零。

1.3 为什么是HTML导出？而不是Excel或CSV？

很多人疑惑：语言学编码最终不都要进统计软件吗？为什么费劲导出HTML？这其实是工具设计最精妙的伏笔。

Excel导出看似方便，但会丢失最关键的维度：编码的嵌套性与上下文依存性。比如一句话：“Although he failed the exam, his teacher praised him for his effort.”
-Although触发ENGAGEMENT中的heterogloss（引入对立声音）
-failed是JUDG中的negative judgment
-praised是JUDG中的positive judgment
-effort是APPRECIATION中的positive appreciation

如果导出为CSV，你得到四行独立记录，但原始句子中“although…but”结构所构建的评价张力完全消失。而HTML导出保留了完整的DOM结构：Although he failed the exam, his teacher praised——你可以用浏览器开发者工具直接查看元素嵌套，用CSS选择器精准提取“被although修饰的judg_neg实例”，甚至用Puppeteer自动化抓取所有包裹下的组合。

更关键的是，HTML导出天然支持人工校验闭环。我在指导学生时，会让ta们先用工具标完一轮，然后把导出的HTML发给我。我不看Excel表格，而是打开HTML，在浏览器里按Ctrl+F搜索class="judg_neg"，逐个点击高亮片段，看上下文是否真构成负面判断。有一次发现学生把“He wasnotsuccessful”标为JUDG_NEG，但原文是转述他人评价（“His supervisor said he was not successful”），这实际属于ENGAGEMENT中的heterogloss，而非JUDG。这种语境误判，在纯表格里根本无法察觉，但在HTML可视化中标记得一清二楚。

2. 编码方案配置原理与实操要点

2.1 .ini文件的五维配置模型：abbr / begin-end / color / ico / description

工具的核心配置文件是.ini格式，表面看只是键值对，实则构建了一个完整的“编码语义场”。每个代码项必须同时定义五个维度，缺一不可。这不是开发者的偷懒，而是语言学编码严谨性的强制落地。

以codelist01_appraisal.ini中ATTITUDE下的affect为例：

[affect] abbr=AF begin=<span class="affect"> end=</span> color=#FF6B6B ico=1.ICO description=情感资源：表达直接情绪反应（如happy, terrified, thrilled）

这五行不是孤立参数，而是一个相互验证的语义闭环：

abbr=AF是你在键盘上输入的快捷码。当你在文本中选中“terrified”，按Ctrl+Shift+A，工具自动插入terrified。这个缩写必须短（≤3字符），且全局唯一——避免AF和AFF混用导致统计混乱。
begin/end定义HTML封装结构。注意begin末尾有空格，end开头无空格，这是为防止标在词边界时产生多余空格。我试过把begin写成（无空格），结果标“He was terrified”时，导出变成He was terrified，中间空格错位。后来发现工具底层用的是字符串替换而非DOM解析，所以格式必须精确到空格。
color=#FF6B6B不仅用于HTML显示，更是统计时的视觉锚点。我在做编码信度检验时，会把两个编码员的HTML导出并排打开，用色块密度快速比对：如果A标了27处红色（affect），B只标了12处，不用查表格，一眼就知道分歧焦点在哪。这个色值还直接写入color.css，确保导出一致性。
ico=1.ICO是图标路径。工具内置9个ICO文件（1.ICO–9.ICO），每个对应一类核心概念。1.ICO是火焰图标（affect），3.ICO是天平（judgment），5.ICO是沙漏（aspect）……这些不是装饰，而是认知提示符。学生初学时，看到界面上的火焰图标，自然联想到“情绪如火”，比死记硬背abbr=AF有效十倍。我甚至把ICO文件打印出来贴在实验室墙上，做成“编码图腾”。
description是理论说明书。它出现在工具右侧面板的悬浮提示中，鼠标悬停即显示。这里写的不是“情感词汇”，而是“表达直接情绪反应”，刻意排除了隐喻性情感（如“cold stare”中的cold是APPRECIATION而非AFFECT）。这个描述直接引用马丁原著的定义，杜绝了学生用自己的话二次解释造成的偏差。

提示：修改.ini文件后必须重启工具才能生效。工具不会热加载配置，这是为避免编码中途规则突变导致数据污染。我养成的习惯是：改完.ini，立刻用记事本另存为codelist01_appraisal_v2.ini，再复制覆盖原文件——这样万一出错，秒级回滚。

2.2 六套预装编码方案的领域适配逻辑

工具预装6个.ini文件，编号01–06，绝非随意排列，而是按语言学分析的典型工作流设计：

编号	文件名	核心理论来源	典型应用场景	我的实操备注
01	codelist01_appraisal.ini	Martin & White (2005) 评价理论	话语分析、媒体语篇、政治演讲	`graduation`子类中`focus`的`abbr=FOC`易与`force`混淆，建议在description里加例子：“specifically（FOC） vsvery（FOR）”
02	codelist02_tense_aspect_for_pearstories.ini	Comrie (1976) 时体理论 + PEAR故事语料特征	叙事研究、二语习得时体习得轨迹	专为PEAR故事设计，包含`past_perfective`（过去完成体）等特殊标记，普通语料慎用
03	codelist03_error_tagging.ini	Ellis (2008) 错误分析框架	二语作文纠错、中介语研究	`error_type`细分为`morphological`/`syntactic`/`pragmatic`三级，导出时class名自动嵌套，如`class="error_morph"`
04	codelist04_autocoding2_for_aspect_and_person_reference.ini	规则型自动编码	批量初筛、降低人工负荷	内置正则：`\b(he\|she\|it\|they)\b(?!\s+is\b)`匹配人称代词，但需手动校验`they`的单复数歧义
05	codelist05_autocoding1_positive.ini	情感词典扩展	正负向情感倾向粗筛	基于MPQA词典，但剔除了`good`/`bad`等高频歧义词，专注`exquisite`/`abominable`等强效词
06	codelist06_person_reference.ini	Halliday (1994) 功能语法	指代链分析、主位推进研究	`reference_type`区分`lexical`（名词）、`pronominal`（代词）、`zero_anaphora`（零形回指），后者需手动确认

特别说说04和05号方案——它们叫“autocoding”，但绝非AI黑箱。打开codelist04_autocoding2_for_aspect_and_person_reference.ini，你会看到这样的规则：

[perfective_aspect] abbr=PERF begin=<span class="aspect_perf"> end=</span> color=#4ECDC4 ico=5.ICO description=完成体：动作有明确起止边界（如finished, completed, had done） regex=\b(finished|completed|had\s+\w+ed|has\s+\w+ed|have\s+\w+ed)\b

看到regex=字段了吗？这就是全部“自动”的真相：它只是正则匹配，不是NLP模型。好处是透明可控——你清楚知道什么会被标，什么不会被标；坏处是需人工兜底。我在用04号方案标汉语语料时，发现它对“了”字处理乏力（如“他吃了饭”中的“了”），于是自己加了一条：

[le_aspect_marker] abbr=LE begin=<span class="aspect_le"> end=</span> color=#4ECDC4 ico=5.ICO description=汉语完成体标记“了” regex=了(?=[，。！？；\s])

这种“半自动”设计，恰是语言学研究的黄金平衡点：机器处理机械重复，人类把控理论边界。

2.3 HTML模板（.tpl）与样式（.css）的协同控制机制

导出的HTML质量，70%取决于.tpl模板，30%取决于.css样式。工具提供result.tpl作为基础模板，其结构精炼得令人惊叹：

<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>【语料ID】编码结果</title> <link rel="stylesheet" href="result.css"> <link rel="stylesheet" href="color.css"> </head> <body> <h1>【语料ID】编码结果</h1> <div class="text-body"> 【TEXT_CONTENT】 </div> <script src="h.js"></script> <script src="c.js"></script> </body> </html>

注意三个关键占位符：【语料ID】、【TEXT_CONTENT】、以及两处<link>标签。工具在导出时，会将原始文本内容注入【TEXT_CONTENT】，将文件名注入【语料ID】，而result.css和color.css则负责样式分层：

result.css：定义基础布局，如.text-body { line-height: 1.8; font-size: 16px; }，确保长文本可读性；
color.css：仅包含.affect { background-color: #FF6B6B; }这类class定义，与.ini中的color=值严格对应。

这种分离设计带来两大实操优势：

样式快速迭代：你想把所有judgment标为黄色底纹而非红色？只需改color.css中.judg { background-color: #FFD93D; }，无需碰.ini文件。我在做跨文化比较时，给中国学生标出的judg用暖色系（#FFD93D），给英国学生用冷色系（#4ECDC4），仅靠切换color.css就能实现视觉区隔。
导出结果可编程解析：result.tpl生成的HTML是标准DOM结构。我用Python的BeautifulSoup写了个5行脚本，自动提取所有内的文本，统计频次并生成词云——这比从Excel里复制粘贴干净十倍。

注意：修改.tpl后，务必保持【TEXT_CONTENT】占位符原样不动，否则导出文本会丢失。我曾因把【TEXT_CONTENT】误写成{{TEXT_CONTENT}}，导致导出HTML全是空白，排查了两小时才发现是模板占位符错了。

3. 实操全流程与核心环节实现

3.1 从零开始：首次运行与基础配置

整个流程无需安装，但有几个隐藏细节决定成败：

解压即用，但路径不能含中文或空格
把压缩包解压到D:\BFSU_Coder，不要放在我的文档\北外语料工具这种路径。工具底层调用Windows API读取文件，遇到中文路径会静默失败——表现为双击exe后无反应。我第一次踩坑时以为程序损坏，重下三次，最后发现是路径问题。
首次运行必做的三件事
- 打开Qualitative Coder Readme.doc，重点看第2页的“编码员守则”（不是技术说明，是理论操作规范）；
- 将Sample_texts\SPCHZSTUD08590217.txt拖入工具主窗口，观察默认编码方案（01号）如何响应；
- 点击菜单栏File → Export as HTML，检查导出的HTML能否在浏览器正常打开，验证result.css和color.css路径是否正确。
配置文件备份策略
工具不会自动备份.ini文件。我的做法是：在资源包根目录新建backup文件夹，每次修改.ini前，执行：
bash copy codelist01_appraisal.ini backup\codelist01_appraisal_20240520.ini
这样三个月后想回溯某次修改，直接进backup文件夹按日期找。

3.2 标注实战：以PEAR故事语料为例的完整操作链

我们以SPCHZSTUD08590217.txt（一名汉语母语者讲述PEAR故事的转录文本）为例，走一遍典型标注流：

步骤1：加载语料与切换编码方案
- 双击BFSU Qualitative Coder 1.2.exe；
-File → Open，选择Sample_texts\SPCHZSTUD08590217.txt；
-Tools → Load Code List，选择codelist02_tense_aspect_for_pearstories.ini（注意不是01号！PEAR故事有专用时体框架）。

步骤2：理解专用方案的特殊约定
打开codelist02_tense_aspect_for_pearstories.ini，重点看description：

past_imperfective: 过去未完成体：动作持续、重复或背景化（如“was walking”, “used to go”）
past_perfective: 过去完成体：动作已完成且有结果（如“had finished”, “completed”）
present_habitual: 现在习惯体：规律性动作（如“goes to school every day”）

PEAR故事语料中，“他每天去学校”是present_habitual，但“他昨天去了学校”是past_perfective——这个区分直指汉语母语者英语时体习得的核心难点。

步骤3：高效标注技巧
-批量选中：按住Ctrl，用鼠标左键点选多个不连续词（如同时选中“went”、“ran”、“jumped”），按Ctrl+Shift+P（past_perfective缩写）一键标注；
-嵌套标注：标完“he had finished his homework”，再选中“finished”单独标past_perfective，工具会自动嵌套为finished（注意class名重复是设计使然，便于CSS精准控制）；
-快速修正：标错时，把光标放在已标文本内，按Ctrl+Z撤销，或右键选择“Remove All Codes”清除所有标签。

步骤4：导出与校验
-File → Export as HTML，保存为SPCHZSTUD08590217_annotated.html；
- 用Chrome打开，按F12进入开发者工具，输入$$('span.aspect_pp')，查看所有完成体标记是否准确；
- 特别检查边界案例：如“he had been working”应标为past_perfective还是past_imperfective？根据PEAR方案定义，been working是持续态，属past_imperfective，工具不会自动判断，需人工干预。

3.3 HTML导出结果的深度利用：不止是展示

导出的HTML远不止“好看”，它是后续分析的原料库：

场景1：编码信度检验（Inter-coder Reliability）
我和另一位编码员各自标同一段文本，导出A.html和B.html。用VS Code打开，搜索，复制所有匹配的文本到Excel两列，用公式=EXACT(A1,B1)比对是否完全一致。比对结果直接生成Kappa系数计算表——这比用第三方信度工具快5倍。

场景2：动态语境提取
PEAR故事中常出现“although…but”结构。我用浏览器控制台执行：

// 提取所有被although修饰的affect实例 const althoughSpans = document.querySelectorAll('span[class="heterogloss"]'); let affectInAlthough = []; for (let span of althoughSpans) { const nextAffect = span.nextElementSibling?.querySelector('span.affect'); if (nextAffect) affectInAlthough.push(nextAffect.textContent); } console.log(affectInAlthough);

结果输出["terrified", "angry", "frustrated"]——这直接指向叙事中“转折后的情绪强化”模式。

场景3：教学演示脚本化
我把color.htm（内置色值速查表）和导出的HTML打包，上课时让学生打开color.htm，找到#FF6B6B对应的“Coral Red”，再回到标注HTML，观察所有珊瑚红色块——他们瞬间理解：原来“情感”在视觉上就是热烈的红色，而“判断”是冷静的蓝色（#4ECDC4）。这种多模态锚定，比讲一节课理论更有效。

3.4 自定义编码方案：从0到1构建你的分析框架

当预装方案不够用时，创建新.ini文件是核心能力。以我做的“汉语方言指示代词编码”为例：

新建文件：在资源包根目录新建codelist07_dialect_demonstratives.ini；
定义头部：
ini ; 汉语方言指示代词编码方案 v1.0 ; 依据：Li & Thompson (1981) 指示语类型学 + 闽南语田野笔记 ; abbr规则：DIA-距离-语法功能（如DIA-N-PRO=方言-近指-代词）
编写代码项：
ini [dialect_near_pro] abbr=DIA-N-PRO begin= end= color=#FF9F1C ico=7.ICO description=方言近指代词：表示空间/心理近距离（如闽南语“呢”、“阮”）
测试与迭代：用text_positive-negative_dummy_text.txt测试，确保缩写不冲突，颜色不重复；
集成到工具：Tools → Load Code List，选择新ini文件。

关键经验：abbr必须遵循统一命名法，否则后期统计混乱。我规定所有方言编码以DIA-开头，所有二语错误以ERR-开头，所有评价系统以APP-开头——这样用Excel筛选abbr列，能秒级切分分析维度。

4. 常见问题与排查技巧实录

4.1 启动异常与环境兼容性问题

现象	可能原因	排查步骤	解决方案
双击exe无反应，任务管理器无进程	路径含中文/空格/特殊符号	将工具移至`C:\Coder`，重试	重命名路径，确保全英文无空格
启动后界面空白，菜单栏缺失	Windows 10/11缺少IE兼容组件	运行`control.exe /name Microsoft.DefaultPrograms`，检查IE是否启用	在“启用或关闭Windows功能”中勾选“Internet Explorer 11”
加载文本后显示乱码（如“ä½ å¥½”）	文本编码非UTF-8	用Notepad++打开样本txt，`编码 → 转为UTF-8无BOM`	保存后重新加载
导出HTML打开为空白页	`result.css`或`color.css`路径错误	用浏览器F12，看Console是否报404	确认CSS文件与HTML在同一目录，文件名全小写

实操心得：在Win11上首次运行，大概率遇到IE组件缺失。不要试图禁用IE（系统会崩溃），而是老老实实启用它——这个“过时”组件恰恰是工具HTML渲染的基石。我甚至把它设为开机自启服务，确保万无一失。

4.2 编码过程中的典型误操作与修复

误操作	后果	快速修复	预防技巧
用鼠标拖选时多选了一个空格	导出HTML中出现`<span> word</span>`，空格在标签外导致样式错位	光标移到标错位置，按Backspace删除空格，再Ctrl+Z撤销标注，重标	标注前按Ctrl+Shift+H显示所有空格（工具内置隐藏功能）
同时加载两个.ini文件	后加载的覆盖前一个，但界面不提示	`Tools → Load Code List`重新加载正确ini	养成习惯：每次加载新方案，先看右上角显示的`Code List: xxx.ini`
修改.ini后未重启工具	新增代码项不显示在快捷键列表	关闭工具，重新双击exe	在.ini文件末尾加一行`; LAST_MODIFIED: 20240520`，作为重启提醒
导出HTML时选错模板	生成空白页或样式错乱	删除错误HTML，重新导出，确认弹窗中模板名是`result.tpl`	将`result.tpl`文件属性设为“只读”，避免误编辑

4.3 HTML导出结果的样式调试技巧

当导出的HTML颜色不对、图标不显示时，按F12打开开发者工具，按以下顺序排查：

检查Network标签页：看result.css、color.css、1.ICO是否返回200状态。若404，说明文件被移动或重命名；
检查Elements标签页：找到一个，看其computed style中background-color是否为#FF6B6B。若不是，说明color.css中.affect定义被其他CSS覆盖；
检查Console标签页：运行document.querySelector('span.affect').getAttribute('class')，确认class名拼写正确（注意大小写敏感）；
终极验证：在Console中执行document.write('TEST')，若显示红色块，则证明浏览器渲染正常，问题出在CSS文件内容。

我常用的CSS调试技巧：在color.css顶部加一行* { outline: 1px solid red !important; }，这样所有元素都有红框，能立刻发现哪些span没被正确包裹。

4.4 高阶问题：多人协作与版本控制

语言学项目常需多人编码。工具虽无内置协作功能，但可通过文件级管控实现：

语料分割：用split -l 100 SPCHZSTUD08590217.txt part_将大文本切为100行一段，每人负责一个part_00文件；
方案锁定：将使用的.ini文件重命名为codelist01_appraisal_LOCKED.ini，禁止修改；
导出命名规范：SPCHZSTUD08590217_Alice_aspect.html，姓名+分析维度；
合并HTML：用Python脚本读取所有*.html，提取<div class="text-body">内HTML，拼接为总报告。

最后分享一个小技巧：我把html_color_codes目录里的色值表打印出来，贴在显示器边框上。每次标新代码，先查色表选颜色，再写.ini——这样全团队的affect永远是珊瑚红（#FF6B6B），judgment永远是青蓝（#4ECDC4），视觉一致性直接提升信度检验效率。

我在北外语言学实验室带过的23个研究生，没人问过“这个工具怎么用”，但所有人都问过“为什么这里要标这个代码”。这正是设计的胜利——它不教操作，而用每一个细节逼你回到理论原点。三年来，它没让我少标一个字，却让我少写了十页方法论说明。当你把codelist02_tense_aspect_for_pearstories.ini里的past_perfective定义抄进论文附录时，你提交的不只是数据，而是整套分析范式的可验证承诺。

本文还有配套的精品资源，点击获取