范子英:如何科学评估经济政策的效应?

选择字号:   本文共阅读 151 次 更新时间:2018-05-15 23:02:57

进入专题: 经济政策   政策评估  

范子英  

   1978年以来,经济保持了近40年的高速增长,在由计划经济向市场经济转型的过程中,中国借鉴了其他发达国家的成功经验,同时由于自身的特殊性,也采取了一系列具有中国特色的改革措施。一方面,中国幅员辽阔,地区之间差距巨大,很难实施“一刀切”的政策,中央政策必须充分考虑地方特色;另一方面,中国具有长达数十年的计划经济历史,改革存在严重的路径依赖,增量改革相对来说阻力更小。这意味着,我们的改革经验是在不断摸索过程中积累起来的,每一项公共政策的推出都是经过了充分的事先试验和事后总结,首先这必然要求决策层具有改革的智慧,能够举重若轻挑选出最有效率的改革方向,其次也要求决策层对改革的效果能够达成共识。此时的任务,就是如何科学量化政策的效应,如何确保此项改革试验没有包含其他政策的干扰。

   自20世纪90年代开始,中国的经济改革逐渐呈现“顶层设计”的特征,可以说这个阶段的改革任务更加艰巨。顶层设计对每一项政策的目标要求更高,严格来说,这样的改革模式对失败是零容忍的。因此,决策层对改革的效应必须有非常充分的预判。无论是早期的试验性改革,还是近期的顶层设计,都提出了一个共同要求,那就是对政策效应的科学评估和预判。而政策评估,特别是基于试验设计的评估方法,正是经济学近30年来的前沿方向。大力普及、推广科学的政策评估方法,对时下中国的改革显得非常必要。

   对这些方法的普及,首先要求相关的政府部门在思想上提高认识,明白错误方法带来的危害,这些危害有时候会导致一些好政策难以落地;其次,各决策机构和地方政府要有较高的包容性,有一些政策的评估,对相应的制度设计要求更高,相关的机构要能够理解这些前提条件,必要的时候还需要配合研究人员对政策进行调整,以满足“科学”这个重要条件;最后,当面临多个政策之间的优劣选择时,要建立以科学评估为基础的政策选择机制,从而更加精确地制定出相应的政策细节。

   本文分三部分逐步展开对科学评估方法的介绍。首先,本文从逻辑上阐述科学评估方法,特别是强调一些基本的逻辑错误;其次,参照我国常见的三种改革模式,提出相应的三种常见评估方法,并举实例进行阐述;最后,重点说明这些方法的局限以及应用过程中的谨慎解读。需要特别强调一下,本文所有内容都是初步的介绍,任何一个方法背后都有非常完整的统计学理论作为支撑,读者若对这些初步的介绍感兴趣,可以尝试阅读一些更为专业的知识。如果是决策部门的同志,对基本方法的框架有一个基本了解,应该就足以引起重视,重视才是开展科学评估的前提。

  

一、科学评估方法的基本逻辑


   从科学的意义上来说,评估一项政策的实施效应其背后的基本逻辑应该是:在给定其他条件相同的情况下,实施政策后的表现(例如价格)与假定没有实施政策后的表现的差异。这句话虽然很简单,但其背后的前提条件是非常苛刻的。举一个通俗的例子,假定我们要评估的是大学教育对工资的贡献度,我们可以造一个时空穿梭机器,首先让某人在现实中读大学,然后记录他工作时的收入A,接着我们用时空穿梭机将他再送回去,这次不让他上大学,记录他另一个平行世界中的收入B,则A-B就是此人上大学的教育回报。在政策评估的方法论中,这个例子中的B就是A的完美的反事实对照组(Counterfactual),也就是说,一旦其接受政策干预,则表现是A,如果没有接受政策干预,结果就是B。

   但是我们知道,上述例子在任何的学科领域都是无法实现的,因为历史都是单线程往前发展的,理论上我们无法构造出一个完美的平行世界,因此我们就无法获得一个政策实施后的反事实对照组。在现实世界中,一个人要么受到政策的干预,要么就是没有收到干预。以上大学为例,现实世界中的某个人,其只可能占据两种状态的一种,要么真的上大学了,要么就没有,我们无法看到一个人上大学状态下的反事实(没上大学),也无法观察到没有上大学人群的反事实(上大学)。因此,如果从一种极致的科学评估的角度来看,严格来说是无法从这个例子中去评估上大学的效应。

   自然而然,我们经常采取的方法是,直接比较那些受到政策干预的人群和未受到政策干预的人群的差别,将这个差别等价于政策实施的效果,这种简单比较的统计方法,其背后包含了一个极其苛刻的要求,那就是用未受到政策干预的人群作为政策干预人群的反事实,这句话的潜台词是说,如果那些受到干预的人群没有收到干预,其结果应该与未受到干预人群的结果是一致的。很遗憾的是,在大多数的现实政策中,这一前提条件往往是无法满足的,从而导致了整个评估结果的巨大偏误。举例说明,医疗卫生支出是政府需要大力进行资助的领域,但是作为决策层来说,任何的决策都是一种权衡和选择,用在医疗卫生领域的多了,用在教育、基建等就必须减少,因此在做具体的决策之前,就需要准确评估医疗卫生对国民健康的改善程度。我们可以采取随机抽样问卷的方式,询问一个人在过去一周是否去过医院,这个问题会呈现两种状态,如果去过医院,则是受到了医疗的干预,如果没有去过,则是未干预组;同时,我们还让接受问卷的人回答其自评健康程度,健康程度分为5档,1至5分别表示健康程度由差到好。最后,我们将调查的结果分组汇总起来,就得到如下的统计表格。

   由于是随机发的问卷,去医院的只占全部人群的一小部分,因此在近10万份的问卷中,仅有7774人是去过医院的,剩下的90049人是没有去过医院的。我们将去过医院的人群的健康程度取均值,其健康程度是3.21,而没有去过医院的人群的平均健康程度为3.93。采用简单对比的办法,我们会得出医疗恶化健康的错误结论。正如上一段所说,当我们简单地将处理组(去医院)和控制组(没去医院)进行对比时,其背后隐含的假设是,如果去医院的那些人没有去医院时,他们和那些真正没去医院的人群的健康程度是相同的。我们假定去医院的人是生病了,而没去医院的人则没有生病,前面那句话的意思是,生病的人和没有生病的人,他们的健康程度是相同的。显而易见,这个前提条件是无法满足的,假设那些去医院的人没去医院,他们的健康程度也远低于实际上没去医院的人。因此,没去过医院的人群不能作为去过医院人群的反事实参照组。由于没去过医院的人群的健康程度更好,因此这种简单对比会严重低估医疗的效应。在表1的例子中,健康的效应应该是正向的,但由于低估的程度非常大,超过了理论上的正向效应,简单对比就会得出负向的健康效应。

   另一种经常犯的错误是,简单对比政策前后的差异,并将这种时间上的差异等价于政策效应。这种纵向对比,其背后隐含的假设是,一旦没有实施该政策,该时间节点之后的表现应该与之前完全一致,因此将节点之前的表现作为节点之后的反事实参照组。但在实际的经济社会中,至少有两大类因素会使得这个假设不成立。一是时间趋势,即某些因素会随着时间的推移逐步增加或者减少,比如人的年龄、一个国家的CPI等,即使没有相应的政策干预,这些因素也会呈现一定的时间趋势,因此政策干预前的CPI并不能作为干预后的反事实参照组。二是共同冲击,这类因素往往是在国家层面统一实施的宏观调控,共同冲击会使得我们关注的指标也发生变化,而这种变化往往与政策效应是混合在一起的,很难将其单独分离出来。

   我们以2011年实施的房产税试点政策为例,来说明纵向对比的偏误。2011年2月份,为了遏制房地产价格过快上升的势头,我国开始在部分城市进行房产税的试点,选择了上海和重庆两个试点城市。与其他税种不同,房产税是在持有环节征收,等价于增加了房屋的持有成本,理论上与提高利率的作用渠道是类似的,可以挤出一部分投资性的需求,进而发挥调节房价的作用。当然,房产税还有其他更加重要的作用,例如为地方政府筹集可持续收入等等,因此该税种自试点开始就被寄予厚望。但实际结果看上去却是不尽人意的,决策层和舆论界都认为房产税试点没有起到遏制房价的作用,这种结论的来源正是简单的纵向对比。如图1所示,重庆的房产税试点从2011年2月开始,但是我们并没有看到重庆房价在试点时出现过下降,相反,试点当年的房价反而上涨了11%,看上去重庆的房产税政策并没有使得重庆的房价下降,因此,就得出房产税无效的结论。

   这种简单的对比是错误的,房价没有下降并不代表房产税没有效应,两者不可以简单地等价。按照科学意义上的评估方法,房产税的效应应该是比较重庆实际房价和假设没有房产税时的房价,当我们简单对比房产税前后的实际房价时,就隐含了一个重要的假设,那就是假设没有房产税时,重庆2011年的潜在房价水平应该跟2010年相同。但由于存在时间趋势和共同冲击两个因素,重庆2011年的潜在房价水平应该远远高于2010年。通俗来说,有房产税时的重庆房价上涨了11%,假设没有房产税,重庆的房价可能上涨了15%,此时4%的差距(15%-11%)才是房产税对房价的遏制效应。现实世界中,我们是无法知道假设2011年没有房产税时的重庆房价,不过我们还是可以大体上用其他城市的房价对重庆的趋势进行判断,与重庆相邻的成都市,其2011年的房价上涨了13%,是大于有房产税的重庆市的房价上涨幅度的,趋势上来说,重庆的潜在房价上涨幅度应该是超过11%,房产税政策是有效果的。因此,简单进行纵向对比,严重低估了重庆房产税政策的效应。

   政策评估的科学方法,其本质上是要找到反事实参照组。反事实参照组要满足两个基本条件:一是要保证呈现反事实的特征,即一旦实验组没有受到政策影响,实验组的结果应该与反事实组是完全一致的;二是反事实参照组不能受到实验组的影响,即那些受到政策干预的人群不能把这种影响传递给其他人,理论上是允许实验组内部的互相影响,但如果这种影响外溢到参照组,无论这种外溢是主观还是客观原因,都会导致对政策效应估计的偏误,一般情况下都是低估了政策的效应。例如在房产税的例子中,重庆和上海实施了房产税之后,如果这些城市居民可以非常容易地到其他城市购房的话,那么在重庆和上海的房产税政策的效应就外溢到了其他城市,不过幸运的是,由于大多数城市都对非户籍居民采取限购房产的政策,因此房产税的外溢效应是比较小的。

   显然,按照“穿越剧”的方式构造反事实参照组是不现实的,不过我们还是可以基于这样科学的视角,采取其他类似方法来构造一种近似的“穿越剧”。常见的构造方法有两类:一是通过数据筛选的方法,二是随机试验的方法。数据筛选的最佳例子是同卵双胞胎的数据,这一数据构造借鉴了医学和药物学的科学方法。在药物进入临床应用阶段,需要对药物的实际效果进行评估,因此需要招聘一些志愿者来服用药物,但是不能简单根据志愿者报名的情况直接进行药物试验,因为我们无法排除志愿者自身的特征对药物作用的影响。因此,在最理想的情况下,药物公司需要招聘一些同卵双胞胎的群体,给予双胞胎的其中一个服用药物,而另一个则不服用,在一段时间之后再评估他们的各项指标。不过,这里面还要进一步排除心理因素的作用,即那些服用了药物的双胞胎个人可能因为自我心理暗示,导致实际作用大于药物作用,这样也会高估药物作用。因此,一个完美的实验,除了需要双胞胎的组别之外,还不能让参加的那组人干扰药物实验,如果这样的话,则还需要进行安慰奖检验(Placebo test)的设计。具体来说,就是要给予双胞胎组别同时服用,其中双胞胎的一半服用真实药物,另一半服用一种外形无差别的糖丸,双胞胎的两方都以为自己服用了药物,心理干扰因素的作用对两方同时存在,他们事后的差异就完全是药物的作用。

第二种构造反事实参照组的方法是随机试验,更准确地说,是随机干预实验(Randomized ControlledTreatment,(点击此处阅读下一页)

    进入专题: 经济政策   政策评估  

本文责编:陈冬冬
发信站:秒速飞艇赔率大小-秒速飞艇开奖直播_走势分析-秒速飞艇娱乐平台(),栏目:天益学术 > 经济学 > 宏观经济学
本文链接:/data/109978.html
文章来源:《财经智库》2018年第3期

0 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

秒速飞艇赔率大小-秒速飞艇开奖直播_走势分析-秒速飞艇娱乐平台(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非秒速飞艇赔率大小-秒速飞艇开奖直播_走势分析-秒速飞艇娱乐平台网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2018 by aisixiang.com All Rights Reserved 秒速飞艇赔率大小-秒速飞艇开奖直播_走势分析-秒速飞艇娱乐平台 京公网安备11010602120014号.
易康网