基于技能词典与大语言模型的教师几何推理能力自动评估方法-尧图网络科技

1. 项目缘起：当“几何推理”遇上“大模型”，我们能做什么？

作为一名长期混迹于教育技术与人工智能交叉领域的老兵，我最近被一个看似“古老”却又极具挑战性的问题给缠住了：如何客观、高效、规模化地评估一位数学教师的几何推理能力？这可不是简单的选择题打分。传统的教师能力评估，要么依赖专家听课打分，主观性强、成本高、难以复制；要么就是让老师做一套标准化的测试题，但这只能检验知识储备，无法真正触及“推理过程”这个核心——一个老师是如何引导学生从已知条件一步步推导出结论的？他的思维链条是否清晰、严谨、富有启发性？

就在我为此挠头的时候，大语言模型（LLM）的浪潮席卷而来。看着网上铺天盖地的“LLM应用开发”、“Agent Skill”、“RAG”这些热词，一个想法逐渐成型：我们能不能把教师的几何推理过程“结构化”，然后用LLM这个强大的“理解与生成”引擎，去自动分析和评估呢？这个想法，就是“基于技能词典与LLM的教师几何推理能力自动评估方法”的雏形。它不是一个空中楼阁的概念，而是一个试图将教育学中的“能力建模”与人工智能前沿的“语义理解”进行深度融合的实战项目。简单说，我们的目标就是打造一个“AI助教”，它能像资深教研员一样，阅读教师的解题或说课文本，然后给出专业、细致的推理能力评价。

2. 核心架构拆解：技能词典与LLM如何分工协作？

整个系统的核心在于“技能词典”与“LLM”的协同。它们的关系，有点像“考纲”与“阅卷老师”。技能词典定义了我们要考察什么，而LLM则负责执行具体的阅卷工作。

2.1 技能词典：为几何推理能力“画像”

技能词典是整个评估体系的基石。它的目标是将抽象的“几何推理能力”分解为一系列可观察、可测量、可编码的具体技能点。这绝不是简单罗列“证明全等”、“计算角度”这样的知识点，而是要深入到推理的“元认知”层面。

我们构建的词典通常包含以下几个维度：

推理步骤的完整性：解题过程是否包含了所有必要的步骤（如“明确已知条件”、“识别图形关系”、“应用定理”、“得出结论”）？是否存在跳跃或缺失？
逻辑链条的严谨性：每一步推导是否有充分的依据（公理、定理、定义）？前提与结论之间的逻辑关系是否牢固？有没有出现循环论证或偷换概念？
语言表述的精确性：使用的几何术语（如“对应边”、“内错角”、“共线”）是否准确？图形描述是否清晰无歧义？
策略选择的合理性：在面对多解问题时，是否选择了最简洁或最核心的证明路径？辅助线的添加是否有理有据？
思维的发散性与创新性（高阶）：是否展示了不同于标准答案的、但逻辑自洽的解法？是否对问题进行了合理的延伸或猜想？

注意：构建技能词典是一个高度专业化的过程，需要学科专家（资深数学教师、教研员）与技术人员紧密合作。词典的颗粒度需要权衡：太粗则评估模糊，太细则会让LLM无所适从，也增加标注成本。我们的经验是从几十个核心技能点开始，在实践中迭代优化。

2.2 LLM的角色：从“文本理解者”到“能力评判者”

有了清晰的“考纲”（技能词典），接下来就需要一位强大的“阅卷老师”。这里，LLM（如GPT-4、Claude-3、国产的Qwen、DeepSeek等）闪亮登场。但直接让LLM“读一段文字，然后打个分”是行不通的，那会得到非常不稳定、且不可解释的结果。

我们的做法是将LLM的工作流程化、结构化：

信息抽取与结构化：首先，提示LLM从教师的自由文本（如解题过程、教案片段、课堂实录转写文本）中，抽取出结构化的信息。例如：“请从以下文本中，识别出所有使用的几何定理、所有进行的推导步骤，并将它们以列表形式列出。”
技能匹配与证据关联：接着，将上一步得到的信息，与技能词典中的条目进行关联。提示LLM：“针对‘逻辑严谨性’技能，请判断上述推导步骤中，每一步的依据是否明确，并引用原文中的句子作为证据。”
基于规则的量化评分：最后，结合前两步的结果，设计一系列“if-then”规则或启发式方法，将LLM的定性分析转化为定量分数。例如，如果LLM识别出某一步缺少依据，则在“逻辑严谨性”上扣分；如果识别出使用了三种不同的证明策略，则在“策略多样性”上加分。

这个过程中，LLM的核心价值在于其强大的语义理解与上下文关联能力。它能够理解“因为这两个角是对顶角，所以它们相等”这句话背后隐含的“对顶角定理”，并将其准确归类。这是传统基于关键词匹配或简单规则的系统难以做到的。

2.3 系统工作流全景图

整个自动评估系统的工作流可以概括为以下几步：

输入处理：接收教师的几何推理文本材料。
预处理：可能包括文本清洗、格式标准化（如果输入包含手写公式图片，则需要先进行OCR识别和公式转换）。
LLM分析阶段：
- 第一轮提示（分解）：让LLM将文本分解为离散的推理步骤或陈述。
- 第二轮提示（映射）：针对每个步骤，让LLM对照技能词典，判断其体现了哪些技能，并给出置信度和文本证据。
证据聚合与评分：后端系统汇总LLM对所有步骤的分析结果，根据预设的评分规则（如，技能点覆盖比例、错误步骤的严重程度等），计算出在各个能力维度上的分数。
报告生成：输出一份结构化的评估报告，不仅包含总分，更关键的是列出具体的优势技能、待改进点，并附上原文中的证据片段。例如：“在‘逻辑严谨性’方面有待加强：第三步‘所以AB平行于CD’的结论，在文中未提供充分的同位角或内错角相等的证据。”

3. 关键技术实现细节与避坑指南

理论很美好，但落地过程处处是坑。下面分享几个我们在实现过程中遇到的核心技术挑战和解决方案。

3.1 提示工程：如何让LLM“听话”地做专业评判？

直接问“请评价这段几何推理的水平”是灾难性的。LLM会倾向于生成一段笼统、正面、但无实质内容的评价。有效的提示词必须具体、结构化、且带有约束。

一个糟糕的提示示例：

“评估以下几何解题过程的推理能力。”

一个经过精心设计的提示示例：

“你是一位严格的中学数学教研专家。请严格分析以下几何推理文本：
首先，将整个推理过程分解为连续的步骤，每个步骤用‘Step X: [原文摘要]’格式列出。
针对每一个Step，请判断： a) 它属于哪种推理类型？（例如：陈述已知条件、应用定理/公式、进行代数运算、做出图形推断、得出结论） b) 该步骤是否显式地陈述了其依据？（是/否）。如果是，请引用依据（如‘垂径定理’、‘三角形内角和为180°’）。 c) 如果该步骤缺失依据，但从上下文可合理推断，请注明‘可推断’。如果完全缺失且无法推断，请注明‘缺失依据’。 d) 该步骤的语言表述是否存在歧义或术语错误？（是/否）。如果是，请指出具体问题。
请以JSON格式输出，包含steps列表，每个step包含‘step_text’， ‘type’， ‘has_explicit_premise’， ‘premise_if_any’， ‘ambiguity’字段。”

这个提示词成功的关键在于：角色设定（专家）、任务分解（先分步骤再分析）、输出结构化（强制JSON）。这极大地减少了LLM的“自由发挥”，使其输出更稳定、更易于被后端程序解析。

3.2 处理LLM的“幻觉”与不一致性

LLM的“幻觉”（即生成不基于输入的内容）和多次调用结果的不一致性，是评估系统可靠性的最大威胁。一个老师同样的答案，两次评估得分差异很大，这系统就不可用。

我们的应对策略是“集成+投票”：

多次采样：对于同一条输入，使用相同的提示词，但让LLM生成多次（例如3-5次）。这是因为在生成式API中，可以通过设置temperature参数来获得略有不同的输出。
关键信息投票：对于关键判定点（如“某步骤是否缺失依据”），统计多次结果中的多数意见。例如，3次运行中2次认为“缺失依据”，则最终判定为“缺失”。
置信度过滤：一些先进的LLM API或通过特定提示词，可以让模型输出其判断的置信度。对于低置信度的判定，系统可以将其标记为“需要人工复核”，而不是强行采纳。

此外，准备一个高质量的验证集至关重要。这个集合包含大量已经由人类专家精确标注过的教师推理文本。用它来持续测试你的评估系统，计算其与人类评分的一致性（如科恩卡帕系数），并针对不一致的案例迭代优化你的提示词和技能词典。

3.3 成本、延迟与规模化部署的考量

使用商用LLM API（如OpenAI， Anthropic）按token收费，对大量文本进行评估成本不菲。本地部署开源模型（如Qwen、Llama）则对算力有要求。在项目初期，我们踩过的坑是：为了追求分析深度，设计了过于复杂、token消耗巨大的提示词，导致单次评估成本高昂、速度慢。

优化经验：

提示词精简：去除所有不必要的礼貌用语和冗余描述。用最精炼的语言表达指令。
分阶段处理：对于很长的文本（如一整节课堂实录），不要一次性喂给LLM。可以先用一个简单的提示词让LLM识别出与几何推理相关的核心段落，只对这些段落进行深度分析。
缓存策略：对于常见的、标准的推理模式或错误，可以建立缓存。当LLM分析出某个模式时，后续遇到高度相似的文本，可以直接调用缓存结果，无需再次请求LLM。
模型选型：不一定非要使用最顶级的千亿参数模型。对于几何推理这种逻辑性强、领域相对明确的任务，经过高质量指令微调（SFT）的百亿参数模型（如Qwen-14B-Chat）往往就能达到不错的精度，而成本和速度优势明显。这就是为什么社区里“python调用qwen llm”、“llm studio”等话题如此热门的原因。

4. 从评估到赋能：系统的实际应用场景与价值

这个自动评估方法的价值远不止于“打个分”。它打开了一扇通向教师专业发展新路径的大门。

场景一：大规模教师职后培训的学情诊断。在国家级或区域级的教师培训中，可以让上万名教师在线完成一项几何推理任务。系统在短时间内自动生成每个人的能力剖面图，精准定位群体性的薄弱环节（例如，大部分教师在“反证法”的应用上逻辑不严谨），从而让培训课程的设计极具针对性，实现“精准教研”。

场景二：师范生教学技能训练的“智能陪练”。师范生在微格教学中进行的几何说课，可以将讲稿或录音转文本后输入系统，立即获得一份详细的“AI诊断报告”。报告不会只说“这里不好”，而是会指出“你在证明线面垂直时，直接使用了‘因为A，所以B’，但没有引用‘如果一条直线垂直于一个平面内的两条相交直线，那么它垂直于这个平面’这一定理，导致逻辑链不完整”。这种即时、具体、不厌其烦的反馈，是任何人类导师都难以在规模化条件下提供的。

场景三：教学资源（如习题解析）的智能质检。教辅资料或在线题库中提供的几何题解答，其推理过程的质量参差不齐。可以用此系统对海量解析文本进行自动筛查，快速找出那些存在逻辑漏洞、表述含糊或含有知识性错误的答案，提升教学资源的基础质量。

一个真实的踩坑案例：我们曾用初版系统评估一批优秀教师的竞赛解题过程。系统频繁地给一些使用了“跳跃性”思维的创新解法打低分，理由是“步骤缺失依据”。这暴露了我们技能词典的僵化——它过于强调形式的、按部就班的推理，而低估了合情推理（如基于对称性的直观猜想）的价值。后来，我们在词典中增加了“创新性猜想与验证”这一技能维度，并调整了提示词，让LLM学会区分“无根据的跳跃”和“富有洞察力的合理跳跃”。这个案例说明，评估系统本身也需要在与人类专家的互动中不断学习和进化。

5. 未来展望：与知识图谱、智能体（Agent）的融合

目前的方法主要依赖于“输入文本 -> LLM分析 -> 输出报告”的管道。这还不够“智能”。未来的演进方向必然是更加动态和交互式的。

一个激动人心的方向是引入几何知识图谱。我们可以预先构建一个包含几何公理、定理、定义及其相互关系的图谱。当LLM分析出教师使用了“勾股定理”时，系统可以自动从知识图谱中调取该定理的内容、前提条件和典型应用场景，并检查当前的使用是否满足所有前提。这相当于为LLM配备了一个精准的“领域知识库”，能极大提升判断的准确性。

另一个方向是开发几何推理评估智能体（Agent）。这个Agent不仅能评估静态文本，还能与教师进行“对话式”交互。当系统发现教师的推理存在模糊之处时，Agent可以主动提问：“您在这一步说‘这两个三角形看起来全等’，请问是依据了哪个全等判定定理？是SAS还是ASA？” 通过教师的回答，Agent能更深入地诊断其思维过程，是将评估从“结果评判”推向“过程引导”的关键。这正契合了当前“LLM Agent”和“Skill”研究的热潮。

最后，我必须强调，任何自动评估系统，其目的都不是替代人类专家，而是将专家从重复、繁重的初级评判工作中解放出来，让他们去处理那些真正需要人类智慧、创造力和同理心的复杂案例。这套“技能词典+LLM”的方法，其核心思想——将复杂能力解构为可观测的技能点，再利用AI进行规模化、一致性的初步分析——完全可以迁移到其他学科的教师能力评估，乃至更广泛的职业能力测评领域。它为我们提供了一把尺子，而这把尺子如何用来丈量并促进人的成长，才是我们所有技术人背后应有的教育关怀。