中国产业政策如何运行？LLM 解码 300 万份政府文件的发现-尧图网络科技

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

作者：连小白 (连享会)
邮箱：lianxhcn@163.com

Source：Fang, H., Li, M., & Lu, G. (2025). Decoding China’s Industrial Policies. National Bureau of Economic Research. Link, PDF, Google.

分类：AI 专题
Title: 中国产业政策如何运行？LLM 解码 300 万份政府文件的发现
Keywords: 产业政策, 大语言模型, 政策文本分析, 央地关系, 政策工具, 政策扩散, 企业进入, 生产率
提要：本文介绍 Fang 等 (2025) 如何用 LLM 解码 300 万份政府文件，构建中国产业政策图谱，并分析政策工具、央地传导、地方扩散与企业后果。

1. 从一个老问题说起

做产业政策研究，最常见的处理方式是把政策写成一个虚拟变量：受到政策影响记为 1，没有受到影响记为 0。若用 DID 设计，就进一步写成Treat × Post。

这不是批评。这样做简洁、清楚，也便于和固定效应模型结合。问题在于，当研究对象是产业政策时，一个虚拟变量很难装下现实中政策设计的全部复杂性。

同样是「支持新能源汽车产业」，政策工具可能包括财政补贴、税收优惠、信贷支持、产业基金、政府采购、土地供给、研发资助、人才政策、充电基础设施、产业园区和供应链配套。不同地区使用不同工具；同一地区在产业早期和成熟期也会使用不同工具；中央、省级和城市政府在整个体系中扮演的角色各不相同。

所以，产业政策的关键不只是「有没有政策」，而是：支持什么产业、用什么工具、由哪级政府发布、有没有资格条件、有没有考核机制、上下级政府之间如何传导。

Fang, Li and Lu (2025) 的《Decoding China's Industrial Policies》正是从这个问题出发。作者没有只研究某一个具体政策冲击，也没有只盯着某类工具，而是用大语言模型 (LLMs) 处理 2000-2022 年中国中央、省级和市级政府发布的约 300 万份政策文本，试图回答一个更基本的问题：中国的产业政策到底如何运行？

2. 测量产业政策，难在哪里？

产业政策研究面临一个基础难题：政策如何测量？过去的做法大致有三类。

第一类用结构化政策文件。例如用国家或省级五年规划中列出的「支柱产业」「鼓励产业」来识别政策支持对象。这种方法清楚，但覆盖范围有限——五年规划只能反映部分政策目标，难以捕捉市级政策、执行细节和具体工具。

第二类用企业实际获得的政策支持。例如企业收到的政府补助、税收优惠或融资便利。这种方法贴近企业现实，但容易把产业政策窄化为财政补贴。现实中，很多产业政策并不表现为直接补贴，而是土地、人才、政府采购、园区建设或供应链配套。

第三类用关键词搜索。在政策标题或正文中找「促进」「发展」「支持」「鼓励」等词，据此判断是否为产业政策。操作方便，但容易出错。某份文件出现了「促进」和「发展」，不一定是产业政策；某份文件没有典型关键词，也可能确实在支持某个特定产业。

Fang, Li and Lu (2025) 从一个新的视角切入：用 LLM 对大规模政策文本进行系统编码。原始数据覆盖 2000-2022 年约 300 万份政府文件，来源包括北大法宝和各级政府官网。LLM 的任务不是简单判断文件主题，而是把每份政策文本拆解为一张可以用于实证分析的「政策卡片」，包括：发布政府、目标产业、政策目标、政策语气、政策工具、政策强度、支持条件、政策引用、上下级政府关系、是否包含考核与监督机制、是否给予地方自主权、是否体现地方适配。

这一步使研究者能从「政策有没有」进入到「政策如何设计、如何执行、如何扩散、如何影响企业」的层面。

3. LLM 的作用：生成政策卡片

这篇论文中，LLM 的角色不是写作助手，也不是摘要工具，而是一个文本测量工具——把政府文件中隐含的政策信息抽取出来，转化为结构化变量。

作者的处理原则有三个：

一是先定义，再抽取。产业政策须满足几个条件：政策主体是政府；文件中包含具体政策措施；政策直接偏向特定行业或特定经济活动；政策目标是影响长期经济结构，而非应对短期冲击。先把边界划清楚，才能让 LLM 的分类结果有意义。
二是区分「直接目标」和「泛泛提及」。一份新能源汽车政策可能提到电池、充电设施、软件、物流、金融服务等相关领域，但并非所有被提到的行业都是政策的直接目标。不做这个区分，产业分类就会大量串漏。
三是先抽取证据，再形成变量。不让 LLM 只输出一个标签，而是要求它识别相关文本、给出判断依据和置信度，并在关键任务上使用多阶段抽取和复核。这样做是为了尽量减少幻觉和误判。

整个研究流程可以概括为：文本输入 → LLM 抽取 → 结构化政策卡片 → 聚合到城市-行业-年份层面 → 与企业和官员数据合并 → 计量分析：

图 1：政策文件先被识别为产业政策，再被拆解为多个字段，最后聚合到城市-行业-年份层面，与企业、官员和城市数据合并。

相对于传统做法——用 0/1 虚拟变量表示「有政策」或「没有政策」，这个流程的独特之处在于：它把产业政策从笼统的定性描述 (简单化)，转化为一个包含多个维度的治理系统 (结构化变量)。每个维度都可以单独分析，也可以组合起来研究政策设计、政策传导和政策效果。

4. 300 万份文件告诉我们什么？

LLM 从约 300 万份政府文件中识别出约 76.8 万份产业政策文件，进而基于这些文件构建了一个包含 10 个维度的政策卡片数据库。对这个数据库的描述性分析揭示了几个重要事实：

时间趋势：2000-2022 年间，政策文件数量总体持续上升，近几年尤为明显。这说明产业政策不是偶尔出现的政策工具，而是中国经济治理中的常规组成部分。

政府层级：中央政策只占全部产业政策的一部分，省级和市级政策数量非常可观。如果研究者只看中央文件，就会遗漏大量地方产业政策实践。

政策语气：作者将政策语气分为支持性、监管性和抑制性。支持性政策用于推动产业发展，监管性政策用于规范行业行为、设置标准，抑制性政策则用于限制落后产能或过度扩张产业。多数政策具有支持性语气，但监管性政策也占有相当比例。需要说明的是，产业政策不是「补贴」的同义词，而是包括扶持、规范和约束在内的政策组合。

目标产业：制造业和生产性服务业是政策关注重点。在制造业内部，高技能制造和新兴制造相关政策的比重上升，与中国近年来强调技术升级的政策方向一致。

政策目标：促进战略性产业是最常见的目标，但政策也经常涉及创新、技术采用、就业、城市化和社会福利，说明产业政策往往是多目标的。

由此，我们可以看到中国产业政策的大致轮廓：政策数量很多，政策目标多元化，地方层级很重要……。不过，知道「有政策」还不够，还要看政府用的是什么工具。因为同样是支持一个产业，发补贴、给税收优惠、做政府采购、建产业园区、设产业基金，背后的激励机制和经济后果并不相同。

5. 中国产业政策的工具箱：不只有补贴

产业政策研究里，用政府补贴衡量政策强度是常见做法。这当然有道理，补贴直接、可观察，也容易和企业数据合并。但这篇论文的一个重要发现是：财政补贴是最常见的单项政策工具，但它仍然只出现在约 41% 的产业政策文件中。换言之，超过一半的产业政策并未使用财政补贴。

作者将产业政策工具概括为五大类：

财政与金融工具（补贴、税优、信贷、股权支持）；
进入与监管工具（产业基金、招商引资、市场准入）；
要素投入工具（劳动政策、土地供给、基础设施、研发支持）；
需求侧工具（消费补贴、政府采购、产业推广）；
供应链工具（产业集群、本地配套、产业链协同）。

图 2：财政补贴最常见，但超过一半的产业政策并未使用补贴。地方政府还会使用进入监管、要素投入、需求侧和供应链等多种工具。

如果只用补贴数据度量产业政策强度，就会系统性遗漏其他大量工具。这不只是一个测量问题，也会直接影响政策评估的结论。某项政策可能没有给企业发很多补贴，但通过土地供给、政府采购或供应链配套已经实质性地改变了企业行为。若研究者只盯着补贴，就会误把这类政策当成「没有支持」。

论文还发现，政策工具随产业发展阶段而演变。产业早期，政策更偏向进入促进、招商和创业支持；发展到一定阶段后，工具逐渐转向研发支持、供应链协同和集群建设。产业政策更像一套动态公共服务，而不是一次性冲击。

6. LLM 指标如何进入计量模型？

把政策工具拆开之后，产业政策就不再是一个笼统的政策名称，而是一组可以观测的变量。接下来的问题是：这些变量如何进入计量模型？作者分三步处理：

第一步，把单份政策文件变成政策卡片，编码为目标产业、政策工具、政策语气、资格条件、实施机制和央地关系等字段。
第二步，把政策卡片聚合到城市-行业-年份层面，形成政策暴露变量。
第三步，把城市-行业-年份政策变量与企业注册数据、税务数据、融资数据、生产率数据和地方官员数据合并，分析产业选择、工具配置、政策传导和企业后果。

在研究地方政府为何选择某些产业时，作者在城市-行业-年份层面估计如下设定：

TargetPolicyc,s,t=β1RCAc,s,t−1+β2AAc,s,t−1+μc,t+λs,t+εc,s,tTargetPolicyc,s,t=β1RCAc,s,t−1+β2AAc,s,t−1+μc,t+λs,t+εc,s,t

其中 TargetPolicyc,s,tTargetPolicyc,s,t 表示城市 cc 在年份 tt 是否将行业 ss 列为目标产业；RCAc,s,t−1RCAc,s,t−1 和 AAc,s,t−1AAc,s,t−1 分别为该城市在该行业的显性比较优势和绝对优势；μc,tμc,t 与 λs,tλs,t 为不同层面的固定效应。

简言之，这个模型要回答的是：地方政府倾向于支持已有基础的行业，还是完全陌生、希望靠政策追赶的行业？

在分析政策的经济后果时，基本设定是：

Yi,c,s,t=β⋅Policyc,s,t+αi+μc,t+λs,t+Xi,t′θ+εi,c,s,tYi,c,s,t=β⋅Policyc,s,t+αi+μc,t+λs,t+Xi,t′θ+εi,c,s,t

Yi,c,s,tYi,c,s,t 可以是企业获得补贴、长期融资、进入概率或生产率等结果变量；Policyc,s,tPolicyc,s,t 则是从大规模政策文本中抽取、分类、聚合得到的政策暴露变量。

LLM 与计量模型的分工因此很清晰：LLM 负责把文本转化为变量，解决测量问题；计量模型负责分析变量与产业选择、企业行为和经济后果之间的关系，处理机制与识别问题。两者不能互相替代。

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。