接上文:【Stata专栏】异方差稳健标准误:一些实际考虑(一)
离散协变量
对于β3和β5以及N=100,以下情况成立。HC1zui接近5%的排斥率。当异方差不高时,HC2接近5%的排斥率。当异方差高时,HC2的排斥率低于5%。HC3和WB具有小于0.05的5%排斥率。异方差越大,速率越小。HC3和野生助推器的比率始终低于HC2。
对于β4和β6以及N=100,以下情况成立。HC1和HC2具有5%的排斥率,对于低水平的异方差。在这些情况下,HC3接近理想速率。当异方差高时,HC1的行为保持不变,HC2接近理想速率,HC3开始产生低于0.05的速率。世行的汇率将始终低于所有其他估算值。
当N=1000时,当异方差小于很高时,所有估计都接近理想的拒绝率。当异方差非常高时,HC1更接近于zui佳抑制率。当N=5000时,除HC3外,所有估计值都接近理想的拒绝率,HC3的拒绝率在非常高的异方差水平下低于0.05。
下表4给出了当样本大小为N=100时,不同异方差水平的4个VCE估计器的模拟结果。表5和6显示了N=1000和N=5000的结果。
表4:离散协变量:不同异方差水平的5%拒绝率
N=100和2000次复制的模拟结果 | |||||
参数 | VCE | γ=0.5 | γ=1.0 | γ=1.5 | γ=2.0 |
β3 | HC1 | 0.054 | 0.052 | 0.051 | 0.047 |
HC2 | 0.053 | 0.050 | 0.044 | 0.034 | |
HC3 | 0.046 | 0.038 | 0.026 | 0.022 | |
WB | 0.032 | 0.032 | 0.030 | 0.027 | |
β4 | HC1 | 0.084 | 0.082 | 0.076 | 0.068 |
HC2 | 0.072 | 0.071 | 0.063 | 0.049 | |
HC3 | 0.058 | 0.053 | 0.042 | 0.025 | |
WB | 0.040 | 0.039 | 0.031 | 0.025 | |
β5 | HC1 | 0.049 | 0.050 | 0.046 | 0.048 |
HC2 | 0.047 | 0.045 | 0.037 | 0.035 | |
HC3 | 0.036 | 0.035 | 0.028 | 0.019 | |
WB | 0.033 | 0.033 | 0.027 | 0.028 | |
β6 | HC1 | 0.081 | 0.078 | 0.068 | 0.061 |
HC2 | 0.069 | 0.066 | 0.059 | 0.045 | |
HC3 | 0.050 | 0.047 | 0.037 | 0.027 | |
WB | 0.037 | 0.033 | 0.024 | 0.020 |
表5:离散协变量:不同异方差水平的5%拒绝率
N=1000和2000次复制的模拟结果 | |||||
参数 | VCE | γ=0.5 | γ=1.0 | γ=1.5 | γ=2.0 |
β3 | HC1 | 0.047 | 0.053 | 0.053 | 0.040 |
HC2 | 0.047 | 0.051 | 0.049 | 0.032 | |
HC3 | 0.045 | 0.050 | 0.044 | 0.027 | |
WB | 0.043 | 0.052 | 0.049 | 0.037 | |
β4 | HC1 | 0.051 | 0.054 | 0.056 | 0.040 |
HC2 | 0.051 | 0.051 | 0.049 | 0.032 | |
HC3 | 0.049 | 0.046 | 0.045 | 0.029 | |
WB | 0.050 | 0.047 | 0.050 | 0.036 | |
β5 | HC1 | 0.044 | 0.054 | 0.051 | 0.054 |
HC2 | 0.044 | 0.053 | 0.048 | 0.046 | |
HC3 | 0.042 | 0.050 | 0.045 | 0.039 | |
WB | 0.043 | 0.053 | 0.049 | 0.048 | |
β6 | HC1 | 0.053 | 0.057 | 0.051 | 0.049 |
HC2 | 0.052 | 0.054 | 0.048 | 0.043 | |
HC3 | 0.050 | 0.052 | 0.042 | 0.038 | |
WB | 0.047 | 0.052 | 0.046 | 0.041 |
表6:离散协变量:不同异方差水平的5%拒绝率
N=5000和2000次复制的模拟结果 | |||||
参数 | VCE | γ=0.5 | γ=1.0 | γ=1.5 | γ=2.0 |
β3 | HC1 | 0.046 | 0.053 | 0.049 | 0.045 |
HC2 | 0.046 | 0.053 | 0.047 | 0.043 | |
HC3 | 0.046 | 0.052 | 0.045 | 0.040 | |
WB | 0.045 | 0.052 | 0.049 | 0.045 | |
β4 | HC1 | 0.058 | 0.054 | 0.048 | 0.048 |
HC2 | 0.058 | 0.054 | 0.047 | 0.044 | |
HC3 | 0.057 | 0.053 | 0.045 | 0.039 | |
WB | 0.058 | 0.052 | 0.047 | 0.049 | |
β5 | HC1 | 0.050 | 0.058 | 0.047 | 0.045 |
HC2 | 0.050 | 0.057 | 0.044 | 0.041 | |
HC3 | 0.049 | 0.057 | 0.042 | 0.038 | |
WB | 0.048 | 0.055 | 0.046 | 0.043 | |
β6 | HC1 | 0.055 | 0.059 | 0.051 | 0.045 |
HC2 | 0.055 | 0.058 | 0.050 | 0.041 | |
HC3 | 0.055 | 0.056 | 0.049 | 0.039 | |
WB | 0.055 | 0.059 | 0.051 | 0.046 |
Long和Erwin型模拟
作者再次对三个样本大小进行模拟。与Long和Erwin(2000)一样,我允许协变量之间的相关性,并包括连续和分类协变量。误差项是不正常的,允许整个过程中有高水平的异方差。与Long和Erwin(2000)的五个参数不同,关注的是六个参数。
当样本大小为N=100时,zui大杠杆的平均值约为0.24,对于某些平局,可能达到0.46。这与MacKinnon和White型模拟相比不那么严重,但对于HCk估算器,仍会产生高于0.05的拒绝率。当样本大小为N=1000时,平均zui大杠杆约为0.042,zui大杠杆约0.11。当N=5000时,zui大杠杆始终低于0.04。
作者对Long和Erwin类型的模拟得出了类似的结论,在上一节中对MacKinnon和White类型的模拟也得出了类似结论。当逼近连续协变量β1和β2的理想拒绝率时,HC3zui好,但对于离散协变量,HC3的拒绝率较低。对于离散协变量,HC1zui接近理想拒绝率,但对于连续协变量具有高拒绝率。对于连续协变量,HC2优于HC1,但对于离散协变量,则更差。世行的覆盖率往往低于0.05,低于其他估算值。
在下表7中,我们给出了所有协变量和样本大小的拒绝率。
表7:两种样本尺寸的5%拒绝率
参数 | VCE | N=100 | N=1000 | N=5000 |
β1 | HC1 | 0.099 | 0.054 | 0.053 |
HC2 | 0.082 | 0.051 | 0.052 | |
HC3 | 0.064 | 0.050 | 0.052 | |
WB | 0.035 | 0.047 | 0.055 | |
β2 | HC1 | 0.089 | 0.052 | 0.042 |
HC2 | 0.073 | 0.050 | 0.042 | |
HC3 | 0.056 | 0.048 | 0.042 | |
WB | 0.043 | 0.051 | 0.044 | |
β3 | HC1 | 0.046 | 0.046 | 0.050 |
HC2 | 0.045 | 0.044 | 0.049 | |
HC3 | 0.033 | 0.044 | 0.049 | |
WB | 0.026 | 0.047 | 0.052 | |
β4 | HC1 | 0.031 | 0.044 | 0.050 |
HC2 | 0.024 | 0.044 | 0.050 | |
HC3 | 0.014 | 0.040 | 0.049 | |
WB | 0.011 | 0.046 | 0.051 | |
β5 | HC1 | 0.047 | 0.063 | 0.057 |
HC2 | 0.038 | 0.061 | 0.057 | |
HC3 | 0.025 | 0.060 | 0.057 | |
WB | 0.013 | 0.063 | 0.061 | |
β6 | HC1 | 0.059 | 0.060 | 0.061 |
HC2 | 0.045 | 0.059 | 0.060 | |
HC3 | 0.030 | 0.057 | 0.060 | |
WB | 0.023 | 0.062 | 0.060 |
Angrist和Pischke型模拟
作者模拟了Angrist和Pischke(2009)模拟,但不允许30个样本大小,而是允许3个不同的样本大小,N=100、N=300和N=1000。所有结果见下表8。这里作者试图恢复一个二元回归的参数。当有100次观察时,除了WB低于0.05外,所有估计的覆盖率都高于0.05。zui大杠杆的平均值约为0.11,zui大值为0.5。当样本量为N=300和N=1000时,所有估计值都接近0.05的拒绝率。以下是模拟结果。
表8:三种样本尺寸的5%拒绝率
参数 | VCE | N=100 | N=300 | N=1000 |
β1 | HC1 | 0.099 | 0.055 | 0.055 |
HC2 | 0.082 | 0.052 | 0.054 | |
HC3 | 0.066 | 0.048 | 0.053 | |
WB | 0.030 | 0.040 | 0.050 |
结论
从文献和作者的模拟中,作者得出结论,当使用异方差一致标准误差时,zui重要的考虑是对您想要估计的每个参数(回归)进行许多观察。此外,每当您担心标准错误的有效性时,您应该查看拟合模型所隐含的杠杆点。杠杆率接近1应该是令人担忧的原因。仿真表明,非常高的杠杆点产生的VCE估计值不接近理想的拒绝率。
参考文献:
Angrist, J. D., and J.-S. Pischke. 2009. Mostly Harmless Econometrics: An Empiricist’s Companion. Princeton, NJ: Princeton University Press.
Cattaneo, M. D., M. Jansson, and W. K. Newey. 2018. Inference in linear regression models with many covariates and heteroscedasticity.
Journal of the American Statistical Association113: 1350–1361. https://doi.org/10.1080/01621459.2017.1328360.
Chesher, A., and I. Jewitt. 1987. The bias of a heteroskedasticity consistent covariance matrix estimator.
Econometrica55: 1217–1222. https://doi.org/10.2307/1911269.
Chesher, A., and G. Austin. 1991. The finite-sample distributions of heteroskedasticity robust Wald statistics.
Journal of Econometrics47: 153–173. https://doi.org/10.1016/0304-4076(91)90082-O.
Long, J. S., and L. H. Ervin. 2000. Using heteroscedasticity consistent standard errors in the linear regression model.
American Statistician54: 217–224. https://doi.org/10.2307/2685594.
MacKinnon, J. G. 2012. Thirty years of heteroscedasticity-robust inference. In
Recent Advances and Future Directions in Causality, Prediction, and Specification Analysis, ed. X. Chen, and N. R. Swanson, 437–461. New York: Springer. https://doi.org/10.1007/978-1-4614-1653-1_17.
MacKinnon, J., and H. White. 1985. Some heteroskedasticity-consistent covariance matrix estimators with improved finite sample properties.
Journal of Econometrics29: 305–325. https://doi.org/10.1016/0304-4076(85)90158-7.
White, H. 1980. A heteroskedasticity-consistent covariance matrix estimator and a direct test for heteroskedasticity.
Econometrica48: 817–838. https://doi.org/10.2307/1912934
附录:文件和模拟(阅读原文获得数据链接)
对于MacKinnon型模拟,每个样本大小和异方差级别都有一个文件。有许多方法可以使用下列这些文件运行模拟。Stata提供了每一个,以便那些想要使用它们的人能够决定哪种方式是zui好的。
例如,对于样本大小N=100,文件被命名为
gamma_05_100.do
gamma_1_100.do
gamma_15_100.do
gamma_20_100.do
第一个下划线后面的数字表示异方差的级别。第二个下划线后面的数字表示样本大小。
对于Long和Erwin型模拟。有:
long_100.do
long_1000.do
long_5000.do
第一个下划线后面的数字表示样本大小。
对于Angrist和Pischke类型的模拟,命名约定与Long和Erwin情况相同。
harmless_100.do
harmless_300.do
harmless_1000.do
Stata软件订购
如需订购Stata V17最新版软件,请联系Stata中国授权经销商及合作伙伴北京友万信息科技有限公司(www.uone-tech.cn)。我司拥有强大的售后服务团队,聚合国内一线Stata行业专家为客户提供优质的技术支持服务,并帮助中国用户建立完善的软件服务体系。手机/微信:18610597626 邮箱:crystal@uone-tech.cn。
立即获取报价
热门链接
专注分享商业数据分析、金融数据分析、应用统计分析、知识图谱、机器学习、计量经济、人工智能、网络爬虫、自动化报告与可重复研究等热门技术内容。定向培养Stata、Python、Minitab、R语言数据人才,助力产学研政企商协同发展,为中国大数据产业蓄能。合作热线:010-56548231 邮箱:info@uone-tech.cn