中国产业政策如何运行?LLM 解码 300 万份政府文件的发现

中国产业政策如何运行?LLM 解码 300 万份政府文件的发现

温馨提示:若页面不能正常显示数学公式和代码,请阅读原文获得更好的阅读体验。

作者:连小白 (连享会)
邮箱:lianxhcn@163.com

Source:Fang, H., Li, M., & Lu, G. (2025). Decoding China’s Industrial Policies. National Bureau of Economic Research. Link, PDF, Google.

  • 分类:AI 专题
  • Title: 中国产业政策如何运行?LLM 解码 300 万份政府文件的发现
  • Keywords: 产业政策, 大语言模型, 政策文本分析, 央地关系, 政策工具, 政策扩散, 企业进入, 生产率
  • 提要:本文介绍 Fang 等 (2025) 如何用 LLM 解码 300 万份政府文件,构建中国产业政策图谱,并分析政策工具、央地传导、地方扩散与企业后果。

1. 从一个老问题说起

做产业政策研究,最常见的处理方式是把政策写成一个虚拟变量:受到政策影响记为 1,没有受到影响记为 0。若用 DID 设计,就进一步写成Treat × Post

这不是批评。这样做简洁、清楚,也便于和固定效应模型结合。问题在于,当研究对象是产业政策时,一个虚拟变量很难装下现实中政策设计的全部复杂性。

同样是「支持新能源汽车产业」,政策工具可能包括财政补贴、税收优惠、信贷支持、产业基金、政府采购、土地供给、研发资助、人才政策、充电基础设施、产业园区和供应链配套。不同地区使用不同工具;同一地区在产业早期和成熟期也会使用不同工具;中央、省级和城市政府在整个体系中扮演的角色各不相同。

所以,产业政策的关键不只是「有没有政策」,而是:支持什么产业、用什么工具、由哪级政府发布、有没有资格条件、有没有考核机制、上下级政府之间如何传导。

Fang, Li and Lu (2025) 的《Decoding China's Industrial Policies》正是从这个问题出发。作者没有只研究某一个具体政策冲击,也没有只盯着某类工具,而是用大语言模型 (LLMs) 处理 2000-2022 年中国中央、省级和市级政府发布的约 300 万份政策文本,试图回答一个更基本的问题:中国的产业政策到底如何运行?


2. 测量产业政策,难在哪里?

产业政策研究面临一个基础难题:政策如何测量?过去的做法大致有三类。

第一类用结构化政策文件。例如用国家或省级五年规划中列出的「支柱产业」「鼓励产业」来识别政策支持对象。这种方法清楚,但覆盖范围有限——五年规划只能反映部分政策目标,难以捕捉市级政策、执行细节和具体工具。

第二类用企业实际获得的政策支持。例如企业收到的政府补助、税收优惠或融资便利。这种方法贴近企业现实,但容易把产业政策窄化为财政补贴。现实中,很多产业政策并不表现为直接补贴,而是土地、人才、政府采购、园区建设或供应链配套。

第三类用关键词搜索。在政策标题或正文中找「促进」「发展」「支持」「鼓励」等词,据此判断是否为产业政策。操作方便,但容易出错。某份文件出现了「促进」和「发展」,不一定是产业政策;某份文件没有典型关键词,也可能确实在支持某个特定产业。

Fang, Li and Lu (2025) 从一个新的视角切入:用 LLM 对大规模政策文本进行系统编码。原始数据覆盖 2000-2022 年约 300 万份政府文件,来源包括北大法宝和各级政府官网。LLM 的任务不是简单判断文件主题,而是把每份政策文本拆解为一张可以用于实证分析的「政策卡片」,包括:发布政府、目标产业、政策目标、政策语气、政策工具、政策强度、支持条件、政策引用、上下级政府关系、是否包含考核与监督机制、是否给予地方自主权、是否体现地方适配。

这一步使研究者能从「政策有没有」进入到「政策如何设计、如何执行、如何扩散、如何影响企业」的层面。


3. LLM 的作用:生成政策卡片

这篇论文中,LLM 的角色不是写作助手,也不是摘要工具,而是一个文本测量工具——把政府文件中隐含的政策信息抽取出来,转化为结构化变量。

作者的处理原则有三个:

  • 一是先定义,再抽取。产业政策须满足几个条件:政策主体是政府;文件中包含具体政策措施;政策直接偏向特定行业或特定经济活动;政策目标是影响长期经济结构,而非应对短期冲击。先把边界划清楚,才能让 LLM 的分类结果有意义。

  • 二是区分「直接目标」和「泛泛提及」。一份新能源汽车政策可能提到电池、充电设施、软件、物流、金融服务等相关领域,但并非所有被提到的行业都是政策的直接目标。不做这个区分,产业分类就会大量串漏。

  • 三是先抽取证据,再形成变量。不让 LLM 只输出一个标签,而是要求它识别相关文本、给出判断依据和置信度,并在关键任务上使用多阶段抽取和复核。这样做是为了尽量减少幻觉和误判。

整个研究流程可以概括为:文本输入 → LLM 抽取 → 结构化政策卡片 → 聚合到城市-行业-年份层面 → 与企业和官员数据合并 → 计量分析

图 1:政策文件先被识别为产业政策,再被拆解为多个字段,最后聚合到城市-行业-年份层面,与企业、官员和城市数据合并。

相对于传统做法——用 0/1 虚拟变量表示「有政策」或「没有政策」,这个流程的独特之处在于:它把产业政策从笼统的定性描述 (简单化),转化为一个包含多个维度的治理系统 (结构化变量)。每个维度都可以单独分析,也可以组合起来研究政策设计、政策传导和政策效果。


4. 300 万份文件告诉我们什么?

LLM 从约 300 万份政府文件中识别出约 76.8 万份产业政策文件,进而基于这些文件构建了一个包含 10 个维度的政策卡片数据库。对这个数据库的描述性分析揭示了几个重要事实:

时间趋势:2000-2022 年间,政策文件数量总体持续上升,近几年尤为明显。这说明产业政策不是偶尔出现的政策工具,而是中国经济治理中的常规组成部分。

政府层级:中央政策只占全部产业政策的一部分,省级和市级政策数量非常可观。如果研究者只看中央文件,就会遗漏大量地方产业政策实践。

政策语气:作者将政策语气分为支持性、监管性和抑制性。支持性政策用于推动产业发展,监管性政策用于规范行业行为、设置标准,抑制性政策则用于限制落后产能或过度扩张产业。多数政策具有支持性语气,但监管性政策也占有相当比例。需要说明的是,产业政策不是「补贴」的同义词,而是包括扶持、规范和约束在内的政策组合。

目标产业:制造业和生产性服务业是政策关注重点。在制造业内部,高技能制造和新兴制造相关政策的比重上升,与中国近年来强调技术升级的政策方向一致。

政策目标:促进战略性产业是最常见的目标,但政策也经常涉及创新、技术采用、就业、城市化和社会福利,说明产业政策往往是多目标的。

由此,我们可以看到中国产业政策的大致轮廓:政策数量很多,政策目标多元化,地方层级很重要……。不过,知道「有政策」还不够,还要看政府用的是什么工具。因为同样是支持一个产业,发补贴、给税收优惠、做政府采购、建产业园区、设产业基金,背后的激励机制和经济后果并不相同。


5. 中国产业政策的工具箱:不只有补贴

产业政策研究里,用政府补贴衡量政策强度是常见做法。这当然有道理,补贴直接、可观察,也容易和企业数据合并。但这篇论文的一个重要发现是:财政补贴是最常见的单项政策工具,但它仍然只出现在约 41% 的产业政策文件中。换言之,超过一半的产业政策并未使用财政补贴。

作者将产业政策工具概括为五大类:

  • 财政与金融工具(补贴、税优、信贷、股权支持);
  • 进入与监管工具(产业基金、招商引资、市场准入);
  • 要素投入工具(劳动政策、土地供给、基础设施、研发支持);
  • 需求侧工具(消费补贴、政府采购、产业推广);
  • 供应链工具(产业集群、本地配套、产业链协同)。

图 2:财政补贴最常见,但超过一半的产业政策并未使用补贴。地方政府还会使用进入监管、要素投入、需求侧和供应链等多种工具。

如果只用补贴数据度量产业政策强度,就会系统性遗漏其他大量工具。这不只是一个测量问题,也会直接影响政策评估的结论。某项政策可能没有给企业发很多补贴,但通过土地供给、政府采购或供应链配套已经实质性地改变了企业行为。若研究者只盯着补贴,就会误把这类政策当成「没有支持」。

论文还发现,政策工具随产业发展阶段而演变。产业早期,政策更偏向进入促进、招商和创业支持;发展到一定阶段后,工具逐渐转向研发支持、供应链协同和集群建设。产业政策更像一套动态公共服务,而不是一次性冲击。


6. LLM 指标如何进入计量模型?

把政策工具拆开之后,产业政策就不再是一个笼统的政策名称,而是一组可以观测的变量。接下来的问题是:这些变量如何进入计量模型?作者分三步处理:

  • 第一步,把单份政策文件变成政策卡片,编码为目标产业、政策工具、政策语气、资格条件、实施机制和央地关系等字段。
  • 第二步,把政策卡片聚合到城市-行业-年份层面,形成政策暴露变量。
  • 第三步,把城市-行业-年份政策变量与企业注册数据、税务数据、融资数据、生产率数据和地方官员数据合并,分析产业选择、工具配置、政策传导和企业后果。

在研究地方政府为何选择某些产业时,作者在城市-行业-年份层面估计如下设定:

TargetPolicyc,s,t=β1RCAc,s,t−1+β2AAc,s,t−1+μc,t+λs,t+εc,s,tTargetPolicyc,s,t​=β1​RCAc,s,t−1​+β2​AAc,s,t−1​+μc,t​+λs,t​+εc,s,t​

其中 TargetPolicyc,s,tTargetPolicyc,s,t​ 表示城市 cc 在年份 tt 是否将行业 ss 列为目标产业;RCAc,s,t−1RCAc,s,t−1​ 和 AAc,s,t−1AAc,s,t−1​ 分别为该城市在该行业的显性比较优势和绝对优势;μc,tμc,t​ 与 λs,tλs,t​ 为不同层面的固定效应。

简言之,这个模型要回答的是:地方政府倾向于支持已有基础的行业,还是完全陌生、希望靠政策追赶的行业?

在分析政策的经济后果时,基本设定是:

Yi,c,s,t=β⋅Policyc,s,t+αi+μc,t+λs,t+Xi,t′θ+εi,c,s,tYi,c,s,t​=β⋅Policyc,s,t​+αi​+μc,t​+λs,t​+Xi,t′​θ+εi,c,s,t​

Yi,c,s,tYi,c,s,t​ 可以是企业获得补贴、长期融资、进入概率或生产率等结果变量;Policyc,s,tPolicyc,s,t​ 则是从大规模政策文本中抽取、分类、聚合得到的政策暴露变量。

LLM 与计量模型的分工因此很清晰:LLM 负责把文本转化为变量,解决测量问题;计量模型负责分析变量与产业选择、企业行为和经济后果之间的关系,处理机制与识别问题。两者不能互相替代。

温馨提示:若页面不能正常显示数学公式和代码,请阅读原文获得更好的阅读体验。