财税大数据及其在经济学当中的应用
发布日期: 2026-05-25

马光荣,中国人民大学财政金融学院副院长

一、财政研究的天然优势——数据

财政学研究的一个独特优势是数据。财政学,简而言之就是研究政府在经济运行中的作用,核心是分析政府的税收征管与财政支出行为,而这些行为所产生的影响,天生具备可量化性。无论是财政收入还是财政支出,每一笔资金的来龙去脉均有清晰且规范的记录,这为经济学量化研究提供了天然的优质素材,也为大数据与经济学的交叉研究奠定了坚实的基础。

二、经济学量化研究的三次升级

过去二十多年,经济学量化研究经历了三次较为明显的升级,发展脉络清晰可循:

1.1.0版本(2005年—2010年):从宏观地区数据起步

早期研究主要依托省级、市级、县级的宏观面板数据。以省级数据为例,全国31个省份结合数十年的观测值,样本总量仅在900个左右。随着研究深入,样本量不足的问题逐渐显现,研究者遂逐步向市级、县级数据拓展。但即便到了县级层面,十年间积累的样本也只有3万个。而且这些数据的变量很单一,研究选题很快被挖空,只能做地区层面的宏观关联分析。

2.2.0版本(2010年后):转向微观主体数据

2010年之后,宏观数据的局限性日益突出,研究重心逐步转向企业、家庭及个人层面的微观数据,比如上市公司的财务数据、规模以上工业企业的数据,还有各高校做的家庭调查数据。这些数据比宏观数据颗粒度更细,能更精准地研究政府收支对单个企业、单个家庭的影响,但样本规模和指标维度还存在不少局限。

3.3.0版本(2020年前后):政务公开大数据成为主流

2020年前后,随着政务信息公开政策的推进,我们能获取到的政务数据越来越多,而且都是千万级、亿级样本的精细化数据。这种数据颗粒度极细、信息维度也丰富,慢慢成为当前经济学研究的核心支撑,也标志着量化研究进入了3.0时代。

三、财税大数据:从来源到实际应用

谈及财税大数据,大家可能会关注它的来源与应用场景。目前我们用的这些数据均来源于政务公开渠道,主要分为7类,且每一类都有实际的研究应用价值:

1.中国财政预决算数据库

自2014年开始,各级政府均要求公开预决算信息,这些数据分散于各地政府官网。我们团队近年来持续开展数据整理工作,目前已经完成2014年到2023年市县的数据归集,但数据整理过程中存在诸多难点,例如各地公开的数据口径不统一,部分数据以扫描形式呈现,识别难度大。我们尝试采用AI技术辅助识别,但准确率仅为85%,尚未达到研究所需标准,后续仍需进一步优化技术手段。

2.政府采购大数据

政府采购全流程(包括招标、中标、合同签署等环节)均按规定公开。我们可以通过这些数据,分析地区市场开放程度,探究政府订单对企业发展的影响;同时,监测财政压力下地方政府采购行为的变化,例如是否存在拖欠企业款项等相关情况。

3.专利数据库

国家知识产权局公开全部专利信息,为我们研究技术扩散提供了重要支撑。例如,我们团队曾开展过专项研究,发现高铁开通后,两城市间的专利相互引用频次显著提升,这说明交通便利性能够有效促进区域间的技术交流与传播。

4.工商登记注册数据

市场监管总局公开的工商登记数据,可协助识别企业的所有制类型、集团关联关系,以及企业跨地区投资布局情况。例如,我们可以用它研究企业是否会把利润转移到税收洼地,以此来减少纳税。

5.行政处罚数据库

税务、环保等相关部门公开的行政处罚信息,可以用来研究分析财政压力较大时期,地方政府是否存在通过增加行政处罚频次以增加财政收入的行为,同时也可评估环境监管政策的针对性与实施成效。

6.社保缴费数据

通过合规合作渠道,我们获取了某个地区的社保缴费数据,累计达14亿条记录。依托此类数据,我们可以追踪职工(尤其是发明家群体)在不同企业之间的流动轨迹,进而分析人才流动对企业创新力的影响。

四、政务数据难获取?

但在实际研究中,我们也面临一个核心难题——政务核心数据的获取问题。政府部门掌握着大量核心财税数据,但目前尚未实现完全公开。当前,多地已成立了数据集团,将数据作为资产进行商业化开发。对研究学者来说,获取这些数据不仅成本较高,还受到严格的保密规定限制,使用权限也较为有限。目前,仅有统计局开展了少量数据开放的尝试,但开放数据量较少,且并非全样本数据,实际使用率较低。例如,研究中大家最为关注的个人及企业核心纳税数据,截至目前仍无法合规用于学术研究。

五、地方财政紧张:增收路径的现实观察

基于我们手工整理的财政预决算数据,对地方财政紧张背景下的增收路径变化进行分析,主要发现以下三点变化:

1.罚没收入并不是主要增收渠道。从全国层面看,罚没收入的增长并不明显。部分观点认为地方政府会通过增加罚款来缓解财政压力。但实际上,这种情况并不普遍,而且过度依赖罚款增收还会对区域营商环境造成负面影响,得不偿失。

2.国有资源资产有偿使用收入增长快。这本质上是地方政府通过盘活国有资源资产以弥补财政缺口的体现。

3.资产收购主体发生明显转变。国有资源资产的收购主体从以往的民营企业,逐步转变为本地国有企业。但需要注意的是,这些国有企业大多通过银行贷款开展收购行为,自身负债水平较高,这种增收方式存在变相举债的潜在风险,后续可能需要政府承担兜底责任。

六、AI助力:财税研究的新方向

最后,我想跟大家分享未来的重点研究方向,核心是依托AI技术赋能,解决当前研究中面临的各类难题:

1.优化数据整理技术:现以手工整理预决算数据为主,不仅耗时耗力,且AI技术辅助识别准确率尚未达到研究要求。后续,希望能借助AI技术、机器学习和视觉语言模型,提高数据采集和识别的效率,降低人力成本,进一步提高数据识别准确率。

2.拓展数据应用场景:依托利用财税大数据,计划开发政府采购、税务征管、政府债务的智能预警系统。目前,已经有部分地区开展相关试点工作,例如绍兴市用政府采购数据构建预警机制,税务部门借助大数据技术排查纳税风险。

3.推动文理交叉融合:和人工智能、大数据领域的专家学者开展合作,推进“AI+财税”交叉研究,挖掘传统计量方法难以触及的研究课题,真正实现文理交叉的学术突破。

 

马光荣:财税大数据及其在经济学当中的应用