【香樟推文2614】双重差分在微观地理数据中的应用

香樟经济学术圈 2022-09-24 09:32

原文信息

Butts, Kyle. 2022. "JUE Insight: Difference-in-Differences with Geocoded Microdata." Journal of Urban Economics.


图片来源:原文

相关推文推荐:

【香樟推文2365】居民会在意垃圾场吗?

【香樟推文2428】中国经济区项目的经济效应

【香樟推文2447】发电厂的“煤改气”会对房地产市场产生影响吗?


文献推荐:

Linden, Leigh and Jonah E. Rockoff. 2008. "Estimates of the Impact of Crime Risk on Property Values from Megan's Laws." American Economic Review, 983, 1103-27.

Muehlenbachs, Lucija; Elisheba Spiller and Christopher Timmins. 2015. "The Housing Market Impacts of Shale Gas Development." American Economic Review, 10512, 3633-59.


一、引言

微观地理数据的发展使我们的研究能够更精确地识别与空间相关的处理效应。当地污染物如何影响儿童健康?住在公交站附近可以提高劳动产出吗?法院拍卖房产或新建筑的出现影响范围有多大?估计处理效应的一种标准方法是将事件发生地作为处理组,将一定范围的邻近区域作为控制组,比较两者之间的产出变化——如Figure 1所示,作者将其称为“环法”(ring method)。本文公式化了环法识别所需的前提假设,强调了该估计方法的缺陷,并提出了改进的办法。

首先,作者通过模型推导得到处理组平均处理效应无偏估计量的必要假设。第一个假设是处理组和控制组的平行趋势,该假设要求处理组中(反事实)未受到干预的结果变量平均变化等于控制组的平均变化。使用环法的主要理由是处理组和控制组在位置上非常接近,随着时间的推移,它们受到冲击的影响相似。然而,第二个假设要求正确识别干预影响的范围(即Figure 1 中的内环)有多大,否则将得到有偏估计量。如果内环太窄,那么控制组就会有一部分接受处理,不满足反事实的平行趋势假设。另一方面,如果内环太宽,未接受干预的区域被视为处理组,会低估平均处理效应。


作者提出了使用基于非参分区的最小二乘估计法(nonparametric partitioning-based least square estimator),充分利用“共同邻域趋势(common neighborhood trends)”假设。本文所提的方法利用多个环刻画出处理效应随距离的变化,而不是给定单一的处理范围估计平均处理效应。这种方法要求处理效应在零到外环的某个距离变为零,而不需要确定作用范围的具体距离,利用了更强的“共同邻域趋势”假设,即反事实趋势不会随距离变化,而不是标准方法中要求的平均而言平行趋势在一定范围的环内成立。虽然这个假设不能直接验证,但作者提出的估计方法创建了一组处理效应的点估计,可以用来直观地检查假设的合理性。如果在一段距离后处理效应为零,那么共同趋势是成立的,类似于事件研究中的事前趋势检验。


非参数估计方法有很多优点。首先,非参估计可以让我们更全面地了解干预的影响随距离的变化,而不是只估计“总体的平均处理效应”。此外,非参估计以数据驱动和最优化的方式选择处理范围,消除模型的设定搜索问题或通过“预测试(pre-testing)”数据确定范围的激励。本文的研究扩展了环法估计以及空间视角下双重差分的相关文献。

二、问题示例

考虑用面板数据和环法来量化城市清理贫民窟空地对房价的影响,Fig 2是该例子的模拟数据。黑线表示距空地不同距离的处理效果,灰色线表示房价潜在的反事实变化(为常数),标准化为0Panela)是处理范围恰好正确的最佳情况,两条水平线显示了处理组和对照组产出的平均变化,处理效应的估计值是这两个均值的差值。然而,这个结果无法体现处理效应的异质性,例如在某个位置处理效应只有的一半,而在某些位置处理效应是的两倍。在后面部分本文将使用非参估计刻画处理效应随距离变化的曲线,而不是使用平均结果。

Panel(b)所显示的处理组范围过宽,一些没有接受干预的地方被视为处理组,低估了处理效应。Panel(c)刚好相反,处理组的范围太窄,控制组有些地方也接受处理,使得反事实趋势估计结果有偏,由于新的处理组更近,处理效应被高估。Panel(d)显示了为什么通过改变处理组和对照组的范围进行稳健性检验是有问题的。Panel(d)得出的结果与(c)相同,使得研究者认为他的结果可信,但这两种情况都高估了平均处理效应。这三个例子表明使用环法估计平均处理效应必须知道处理效应变为0的确切距离。由于这是一个非常重要的假设,作者在第四章提出了一个改进的估计方法,通过利用恒定的共同趋势假设放宽了这个假设。


三、理论

在这一部分,作者将之前所提到的假设公式化。假设某个面板数据在时间点𝑡= 0,1观测到空间𝜃中的随机样本单元𝑖 =𝑥𝑖,𝑦𝑖),干预发生在两个时间点之间的某个位置。每个位置到处理点的不同,定义为以某种方式计算的距离𝑑(例如欧氏距离),其分布函数为𝐹Dist。结果变量由以下方程决定:


其中,𝜇𝑖 是不随时间变化的单元固定效应,𝜆𝑖结果变量未受到干预时在t=1的变化,𝜏𝑖 为单元𝑖的处理效应。𝜆𝜏可以分解为由距离决定的函数和随机扰动项是在给定距离的平均处理效果,总结了协变量和冲击如何随距离变化。


因此,模型可以被改写为:


其中,与距离不相关。研究人往往想要确定接受处理单元的平均处理效应,例如


作者总结出之前环法估计的假设:

然后可以得到,对它进行分解得出以下推论:

推论1的第(i)部分表明估计值是双重差分的结果,第一重差分是平均处理效应在控制组和对照组之间的差异,第二重差分是两组之间的趋势差异。这主要存在两个问题:首先,若是控制组也有一部分单元受到干预,那干预的处理效应会被减去;其次,由于干预可能是有针对性的,处理组和控制组的趋势可能不同,因此控制组不能作为处理组的良好反事实。


推论1的第(ii)部分表明当dc满足平行趋势时,第一部分中的趋势项的差分为0。正如我们之前所讨论的,推论1的第(ii)部分不一定是的无偏估计。首先,如果𝑑𝑡过宽,那么将包含没有接受干预的单元,会低估实际影响。其次,如果𝑑𝑡太窄,那么将包含受到干预的单元。这两种情况下将不是的无偏估计。


推论1的第(iii)部分表明,如果𝑑𝑡被正确设定为接受干预的最大距离,则将是对处理组平均处理效应的无偏估计。然而,假设4是一个非常严格的假设,𝑑𝑡难以被正确设定,除非有一个先验理论得到𝑑𝑡。后文将通过非参估计来得到整个𝜏Dist函数来改进估计方法。


四、处理效应函数的非参估计

不同于参数估计需要确定干预的作用范围𝑑𝑡,非参估计只需要处理效应在dc之前变为0即可。然而,非参估计的弱点是在更温和的平均平行趋势假设下,它将无法准确识别处理效应曲线。因此,研究人员应该证明在𝑑𝑡范围内,每个距离单元都受到相同趋势的影响,这在较小的地理范围内(如社区)更容易满足,而在较大的单位(例如城市)中,该假设难以成立。


绘制估计值可以为局部平行趋势假设提供可视化证据。通常,处理效应将停止在远离dc的某处,即在第j个区间,估计出的接近L处,这可以为平行趋势保持提供非正式检验(例如后文的Fig 4)。


上述推论表明,当分段数量L和样本数量n趋向于无穷时,一系列的估计值将一致估计出处理效应曲线。然而,在有限样本中,我们将通过假设,得到固定L的处理效应估计值。估计值近似等于或区间Dj内的平均处理效应。



非参估计有以下几点需要注意:


备注1(整体平均处理效应): 研究人员可能会试图将显著的范围“汇集”在一起,以估计受到干预的整体平均处理效应。由于估计值是数据中的分位数,将进行简单加总平均可能会粗略计算出处理效应。然而,在重复抽样中显著的可能会变化,存在模型选择问题,因此难以根据估计值做出推断(Leeb and Ptscher2005)。一个可能但需要大量样本的解决方案是使用交叉验证,用其中一半的数据将确定“内环”,然后用剩下的样本估计整体平均处理效应。


备注2(协变量):基于分区的序列估计方法可以允许协变量包含在模型中进行有效的推断。然而,包括协变量会改变必要的共同趋势假设,即在控制协变量𝑋后平行趋势仍需要成立(详见Sant’Anna and Zhao 2020的讨论)。


备注3dc的选择):上述方法仍要求研究者指定外环距离dc。一个可用的办法是选择使𝜆Dist)保持水平的最大距离。


五、一个非参估计的例子

为了说明非参估计的好处,这一部分将回顾Linden and Rockoff2008),这篇文章分析了性犯罪者迁入小区对房价的影响。原文使用环法,将性犯罪者周围十分之一英里定义为处理组,十分之一至三分之一英里处定义为控制组,具体可以在在线附录中了解他们的识别和估计结果。

至于处理组范围的选择,之前没有研究结论可以确定性犯罪者的影响范围有多大。作者提供了性工作者出现之前和之后不同距离与平均房价之间关系的非参估计结果图(Fig 3 Panel b)。通过两个估计值大致相等的点确定处理组的范围。然而这种方法并不像看起来那么精确。Panel a)和(c)显示,更改核密度估计的带宽将产生不同的预测。而本文提出以数据驱动的估计方法则不需要这些临时决策。


标准的环法估计结果如Fig 4 Panela),性犯罪者出现后,00.1英里之间的房屋价值下降了约7.5%,而0.10.3英里外的房屋不受影响。选择0.1英里是一个不可测试的假设,如上所述,提供的证据高度依赖于带宽参数的选择。本文作者所提出的估计方法并不需要确定范围。


Fig 4 中的Panelb)使用了第四章中描述的非参数方法,估计结果与之前存在两个差异。首先,两个最近的环(即几百英尺以内)的房价受性犯罪者抵达的影响最大,房价下降约20%。距离稍远但仍处在Linden and Rockoff所规定的处理组范围内的部分单元没有统计学意义上显著的处理效应。如上所述,Linden and Rockoff由于包括了未受影响的区域,这使得估计的0衰减,低估了性犯罪对房价的影响。非参数方法通过提供更完整的处理效应曲线图来改进估计方法。处理效应的大小随着距离的增加而降低,提供了额外证据证明性犯罪会导致房价下跌。


这种方法的第二个优点是,图形提供了对局部平行趋势假设的非正式检验。在0.1 英里后,估计的处理效应曲线始终以零为中心。这意味着每个环内的单元与最外环具有相同的估计趋势,从而提供了房屋受相同趋势影响的证据。

Abstract

I formalize a commonly-used estimator for the effects of spatially-targeted treatment with geocoded microdata. This estimator compares units immediately next to treatment to units slightly further away. I introduce intuitive identifying assumptions for the average treatment effect among affected units and illustrate problems when these assumptions fail. I propose a new method that allows for nonparametric estimation following methods introduced in Cattaneo et al.2019b that allows estimation without requiring knowledge of exactly how far treatment effects are experienced. Since treatment effects can change with distance, the proposed estimator improves estimation by estimating a treatment effect curve.


推文作者:何佳鑫。


声明:推文仅代表文章原作者观点,以及推文作者的评论观点,并不代表香樟经济学术圈公众号平台的观点。

香樟经济学术圈征稿

“分享”是一种学者的人文情怀,香樟经济学术圈欢迎广大订阅读者(“香粉”)向公众平台投稿,也诚邀您加入香樟推文team。生活处处皆经济,经济处处现生活。如果你或者身边的朋友看了有趣的学术论文,或者撰写了经济政策评论,愿意和大家分享,欢迎投稿(经济金融类),投稿邮箱:cectuiwen@163.com。如果高校、研究机构、媒体或者学者,愿意与平台合作,也请您通过邮箱联系我们。投稿前请在搜狗的微信搜索里搜索已有图文,避免重复。


推荐阅读