一个面板数据集(资料来源:世界发展指标数据由4.0 CC许可下)由作者(图片) — 一个面板数据集(来源:世界发展指标下数据CC 4.0许可证由作者)(图片)

如何构建一个汇集OLS回归模型的面板数据集

并详细分析使用Python和statsmodels拟合优度

萨钦日期

2月5·14分钟阅读

在本文中,我们会知道面板数据的数据集,我们将学习如何构建和训练汇集OLS回归模型现实世界的面板数据集使用statsmodels和Python。

训练池OLSR模型后,我们将学习如何分析训练模型的拟合优度使用调整后的平方,对数似、AIC和野生回归。我们将看一个更深的模型的拟合优度通过详细分析其残余的错误。

随着Fixed的影响,随机效应,随机系数模型,汇集OLS回归模型是通常认为模型面板数据集。事实上,在许多面板数据集,汇集OLSR模型通常是用作参考或基线模型比较其他模型的性能。

面板数据是什么?

面板数据集包含的数据收集在一段时间内一个或多个个人或“事物”的唯一标识。在面板数据术语中,每个单独的或“事”数据收集被称为单位。

这里有三个真实世界的例子面板数据集:

弗雷明汉心脏研究弗雷明汉心脏研究是一个长时间运行的实验是在1948年开始在弗雷明汉,马萨诸塞州。每年从5000 +个人健康数据被捕获的目标识别心血管疾病的危险因素。在这个数据集,单位是一个人。

Grunfeld投资数据:这是一个受欢迎的研究数据集,其中包含10个美国公司的企业业绩数据积累了20年。在这个数据集,单位是一个公司。

“英国家庭专门调查”:这是一个调查样本的英国家庭。自1991年以来,每个样本家庭的成员被要求一组问题和他们的反应被记录了下来。相同的样本的家庭又采访了每个随后的一年。调查的目的是分析社会经济变化的影响在英国英国家庭。在这个数据集,单位是一个家庭。

构建面板数据集时,研究人员测量一个或多个参数变量为每一个单位并记录他们的价值观以表格格式。实例变量是性别、种族、重量和血脂水平对个人或雇员数,流通股和息税前利润的公司。注意,有些变量可能会改变在时间,而另一些则保持不变。

结果从这个数据收集运动是什么三维数据集中每一行代表一个独特的单位,每一列包含的数据从一个测量变量的单位,和z轴的时间序列包含单位一直在跟踪。

面板数据集的出现纵向研究研究人员希望研究的测量变量的影响在一个或多个响应变量如每年的投资由一家公司,或者一个国家的GDP增长。

一个真实世界的面板数据集

下面的面板数据集包含的人均国内生产总值同比增长% 7个国家从1992年到2014年。随着国内生产总值(GDP)增长数据,面板也包含同比增长%在每个国家资本形成总额:

在上面的数据集,每个国家(“单位”)在相同数量的跟踪时间导致所谓的平衡板。一个不平衡或不平衡的面板是一个在不同时期不同的单位跟踪。

上面的数据集的一个例子固定面板(对旋转面板)因为我们是跟踪每个时间段相同的国家。

在本文的其余部分中,我们将看看数据面板固定和平衡。

在面板数据集,数据集点属于一个单位被称为集团。通常,单词单元和组交替使用在讨论面板数据集。

绕回到世界银行(World Bank)的数据集,假设我们想要研究资本形成总额的增长之间的关系,一个国家的GDP的增长。为此,我们形成以下回归的目标:

回归的目标

我们的目标是精确地定义之间的关系一个国家资本形成总额的增长和经历的年度GDP增长的国家。

回归策略

我们的策略是选择适合一个回归模型,适用于面板数据集,并专门为世行面板数据。我们的回归模型应该允许我们表达国家年度GDP增长我时间(年)t,因为一些函数f ()。资本形成总额每年增长的国家我在时间期间t。

在符号形式:

在上面的回归方程,ε_it是回归和它捕获的残差方差同比增长的国家吗我在一年t,该模型不是能够“解释”。

汇集OLS回归模型

如前所述,汇集OLS回归模型通常是一个好的出发点和参考模型几个面板数据集。我们会研究它的适用性世界银行(World Bank)数据集。

要做到这一点,我们将“平”考虑国家和年的面板数据为两列,以便它看起来像这样:

我们的依赖(内生)和解释(外生)变量如下:

因变量y= GDP_PCAP_GWTH_PCNT
解释变量X= GCF_GWTH_PCNT

数据集是可供下载在这里。

使用熊猫,我们将这个扁平的面板数据集加载到内存中,并使用Seaborn,我们将策划阴谋y与X。

我们将开始通过导入所有必需的包包括在本文后面,我们将使用:

进口熊猫作为pd
进口scipy.stats作为圣
进口statsmodels.api作为sm
进口statsmodels.graphics.tsaplots作为的东西
从statsmodels.compat进口lzip
从statsmodels.stats.diagnostic进口het_white
从matplotlib进口pyplot作为plt
进口seaborn作为sns

夷为平地的数据集加载到一个熊猫数据帧:

df_panel = pd。read_csv(' wb_data_panel_2ind_7units_1992_2014.csv ',头= 0)

使用Seaborn绘制在所有时间和所有国家GDP增长和资本形成总额增长:

sns。散点图(x= df_panel [“GCF_GWTH_PCNT”),
y= df_panel [“GDP_PCAP_GWTH_PCNT”),
色调= df_panel [“国家”])。集(标题=
的同比变化百分比同比增加了人均GDP与资本形成总额的变化百分比)plt。显示()

我们看到如下图:

似乎有一个线性关系同比% GDP与同比增长%资本形成现有的所有国家生产总值(GDP)增长数据的面板。这预示着使用OLS方法拟合线性模型。

然而,我们也观察的迹象异方差性在响应变量GDP_PCAP_GWTH_PCNT。具体来说,方差在GDP_PCAP_GWTH_PCNT不是常数不同的GCF_GWTH_PCNT值。这并不预示着使用OLS估计技术。

无论如何,让我们犁推进OLS回归模型拟合数据面板夷为平地。稍后在这篇文章,我们将看到如何使用电池测量模型的适用性的拟合优度测试。

池的OLS回归模型方程如下:

培训的目标模型的面板数据集是找到拟合系数β_cap_1和β_cap_0。“帽”β_cap意味着它是模型的系数估计的价值,它不是真正的(人口)的价值β这始终是未知的。

ε的残差拟合模型,它是一个随机变量均值和方差。如果OLS估计技术正确履行职责,ε的零均值,εGCF_GWTH_PCNT条件(也就是有一个恒定的变化。ε不会heteroskedastic),ε不会auto-correlated。

我们将使用statsmodels”OLS类来构建和适应OLS回归模型如下:

定义y和X变量:

y_var_name =“GDP_PCAP_GWTH_PCNT”
X_var_names = [“GCF_GWTH_PCNT”]

雕刻出y从数据面板向量:

pooled_y = df_panel [y_var_name]

雕刻出X矩阵的数据面板:

pooled_X = df_panel [X_var_names]

添加占位符回归拦截。模型安装时,此变量系数回归模型的截距β_0。

pooled_X = sm。add_constant(pooled_X)

构建OLS回归模型:

pooled_olsr_model = sm。OLS(endog= pooled_y,exog= pooled_X)

火车上的模型(y,X)数据集和获取培训结果:

pooled_olsr_model_results = pooled_olsr_model。适合()

打印培训总结:

打印(pooled_olsr_model_results。总结())

我们得到以下输出:

如何解释池OLSR模型的输出培训

要注意的第一件事是拟合系数的值:β_cap_1和β_cap_0

β_cap_0 = 0.9720,β_cap_1 = 0.2546

这两个系数估计在p < 0措施显著不同。这是一个好消息。

训练池OLS模型的方程如下:

如何解释池OLSR模型的性能

我们会分析是否合用OLS模型是适当的模型对我们的回归问题。我们将分析模型的拟合优度使用直接措施和测试等平方和野生和对数似另类投资会议成绩,也间接地通过残留分析。

通过平方拟合优度分析,野生,对数似和另类投资会议

的调整后的平方衡量的总方差的分数吗y这是解释为X占自由度后失去了由于回归变量的包容是0.619或62%左右。这当然不是一个糟糕的数字,但仍然没有欣喜若狂。

的野生的回归测量模型的参数的共同意义产生了检验统计量的261.4的假定值2.15 e-35从而引导我们得出模型的系数估计联合显著p <措施。

模型的对数似是-300.29,另类投资会议得分604.6。这些拟合优度值本身是没有意义的,除非我们比较他们的竞争模式。我在下周的文章中,我们会在相同数据面板固定效应模型并使用有限元模型的比较适合的质量与汇集OLSR模型使用这两个措施。

分析残余错误

让我们分析剩余的错误拟合模型正常,异方差性和相关——三个属性影响线性模型的拟合优度。

回忆,每个原始残差ε_it = y_obs_it - y_pred_it即它的区别是GDP_PCAP_GWTH_PCNT的观察和预测价值。让我们打印出熊猫系列对象包含原始残余错误的培训模式:

打印(pooled_olsr_model_results.resid)

以下是剩余误差的平均值:

打印(平均值的残余误差= '+str(pooled_olsr_model_results.resid。的意思是()))

平均值的残余错误=3.682354628259836 e-16

几乎是零均值的预期结果使用OLS估计技术。

残余误差正态分布?

让我们画出qq的情节残余错误:

sm。qqplot(数据= pooled_olsr_model_results。渣油,行=”45”)plt。显示()

在这里,我们首先观察问题的迹象。残差是一个视觉的qq阴谋正态性检验,它清楚地表明,拟合模型的残差不是正态分布。qq测试的结果是支持的输出Jarque-Bera和综合测试底部面板所示为正常的培训总结。测试表明残差都不是正态分布p <措施。

虽然残余错误不是正态分布,汇集OLS估计量仍是最佳线性无偏估计量(蓝色)的面板数据回归的问题。Non-normality残余错误不会影响BLUE-ness OLS回归模型。

有剩余的一个缺点错误,不是正态分布是一个不能构建可靠的置信区间模型的预测。我们可以容忍小偏离常态,但大离职无效的使用正常或学生的t分布。因此,可靠的置信区间(因此不应该)不能计算。

剩余错误办到吗?

OLS估计量的不是非常高效。(尽管它仍然是无偏见的)如果heteroskedastic OLSR的残余误差模型,即剩余误差的方差在所有的值不是常数X。

让我们视觉检查残差是否有任何趋势出现在一块的残差X:

无花果、ax = plt。次要情节()无花果。suptitle(原始残差的汇集OLS和X ')plt。ylabel(“剩余(y -μ)”)plt。包含(“X =”+str(X_var_names [0]))斧子。散射(pooled_X [X_var_names [0]], pooled_olsr_model_results。渣油,年代= 4,c=”黑色的”,标签=”残差”)plt。显示()

我们可以看到下面的情节。残差不似乎有一个恒定的方差为不同的值X。我有标记的趋势方差使用红色箭头:

情节的残余误差汇集OLS模型和x情节表明heteroskedastic残差由作者(图片)

异方差性可以运行确认白色的测试我们将退回剩余的平方X和测试的意义生成的回归模型的系数如下:

键= [的拉格朗日乘子的统计:,LM检验\ '年代假定值:,
的f统计量:,‘野生’s“假定值:]结果=het_white(渣油= pooled_olsr_model_results。渣油,exog= pooled_X)打印(剩余的白色异方差性检验结果错误= = = > ')
打印(lzip(结果)键)

我们可以看到下面的输出:

剩余的白色异方差性检验结果错误= = = >
[(拉格朗日乘子数据:,9.918681580385458),(“LM检验的假定值:”,0.007017552347485667),(f统计量:,5.186450932829045),(“野生的假定值:”,0.006582734100668208)]

LM的假定值<措施表明是一个测试拒绝零假设白色的测试,残差是办到的。

如前所述,汇集OLS回归模型将产生无偏估计的人口值即使heteroskedastic残留的拟合模型的错误。但残差的异方差性将违反之一高斯-马尔可夫假设使OLS估计量的最佳线性无偏估计量的问题。具体来说,当残差heteroskedastic, OLS估计量效率低下的即它失去能力生成预测有最低方差之间所有可能的线性无偏估计量。当残差heteroskedastic, OLS估计量下或高估方差参数估计,导致参数估计的标准误差miss-specified。标准错误是用于计算置信区间以来,参数的置信区间估计也是不正确的。看到同样的miss-specification标准误差和置信区间与模型的预测。

剩余错误与响应变量y ?

让我们画出残余误差对y = GDP_PCAP_GWTH_PCNT:

无花果、ax = plt。次要情节()无花果。suptitle(原始残差的汇集OLS和y ')plt。ylabel(“剩余(y -μ)”)plt。包含(' y ')斧子。散射(pooled_y pooled_olsr_model_results。渣油,年代= 4,c=”黑色的”,标签=”残差”)plt。显示()

我们得到如下图:

情节汇集OLS模型的残余误差对y = GDP_PCAP_GWTH_PCNT由作者(图片)

似乎有什么看起来像一个残余错误和之间的线性趋势y。相关测试使用皮尔森是r证实了这种视觉的判断:

键= [”皮尔森\ ' s r:“,的假定值:]结果=圣。pearsonr(x= pooled_y,y= pooled_olsr_model_results。渣油)打印(结果的皮尔森\ ' s r测试残余误差之间的相关性和响应变量y = = = > ')打印(lzip(结果)键)

我们可以看到下面的输出:

皮尔森r的测试结果之间的相关性残余误差和响应变量y = = = >
((“皮尔森的r:”,(0.6149931069935411)假定值:”,3.996454333518694 e-18))

第一个值为0.61499的相关性(~ 61%)和残差之间y,第二个值3.99645 e-18假定值的结果。我们将忽略报告假定值作为我们知道残差远非正态分布。无论如何,这个报道相关(61%)本身显然是远远大于零,因此,意义重大。

高度的相关性回归和响应变量的残余误差表明,我们汇集OLSR模型缺失的重要解释变量,否则能够“解释”的相关性。无论方差的人均国内生产总值增长率(y)的国家,总资本形成率(X)未能解释泄露到残差的形式都相关y和异方差性。

是残差auto-correlated吗?

让我们情节自相关函数(ACF)剩余的情节错误:

的东西。plot_acf(x= pooled_olsr_model_results。渣油)plt,告诉()

我们看到如下图:

1.0的完美相关滞后0是被忽略的数量总是与自身完全相关。但是我们看到显著的残余误差之间的自相关滞后1、2和3。

正如残差的异方差性,残差的自相关违反的高斯-马尔可夫假设OLS估计量的蓝色。具体来说,auto-correlated残余错误导致miss-specified标准错误(低估)导致t(或z值)被高估了,和参数的置信区间估计miss-specified。系数在现实中零即微不足道,可能会错误地报告为零(重要)。

总结调查结果

总的来说,我们发现,汇集OLS回归模型,我们建立了世界银行(World Bank)数据集具有以下属性:

它的调整的平方是62%左右这是不错的一个真实的数据集。
的模型的参数系数被发现是重要的在一个p <措施。
野生表示参数系数共同意义重大在一个p <措施。
的残余误差模型的不是正态分布,这意味着与模型相关的标准误差和置信区间的预测可能不是完全可靠的。
的剩余heteroskedastic错误暗示的结果t检验对模型的参数,参数意义对应的置信区间参数估计和野生的结果并不完全可靠。结论适用于相关的标准误差和置信区间的预测模型。
的剩余错误与响应变量y这意味着模型遗漏了重要的回归变量,否则他们就会被与y,他们的缺席导致平衡数量的相关性泄漏到剩余的错误。
的剩余错误auto-correlated滞后1、2和3这意味着模型的参数估计的标准误差是可能被低估和报道z值(或t)相应的高估了。功能,自相关回归模型的残差意味着通用miss-specification。

总的来说,汇集OLSR的残差分析模型是指向一个miss-specification回归模型的问题。我们可以做得更好的其他两种回归模型对面板数据集即表示固定的影响和随机效应回归模型。

我在下周的文章中,我们会深入了解固定效应回归模型,我们将看看如何构建和适应有限元模型在世界银行(World Bank)数据集。我们将比较其拟合优度与池OLSR的模型。

这是下载链接世界银行的数据集使用这篇文章。

这是完整的源代码中使用的文章:

引用,引用和版权

数据集

世界发展指标世界银行的数据CC 4.0许可证。下载链接

纸和书的链接

巴迪h . Baltagi面板数据的计量经济分析第六版,施普林格

威廉·h·格林计量经济学分析8日版,2018年,皮尔森

图片

本文中所有图片版权萨钦日期下CC-BY-NC-SA,除非另一个源和版权下面提到的形象。

如何构建一个汇集OLS回归模型的面板数据集

并详细分析使用Python和statsmodels拟合优度

面板数据是什么?

一个真实世界的面板数据集

回归的目标

回归策略

汇集OLS回归模型

如何解释池OLSR模型的输出培训

如何解释池OLSR模型的性能

通过平方拟合优度分析,野生,对数似和另类投资会议

分析残余错误

残余误差正态分布?

剩余错误办到吗?

剩余错误与响应变量y ?

是残差auto-correlated吗?

总结调查结果

引用,引用和版权

数据集

纸和书的链接

图片

萨钦日期

从对数据更科学欧宝全站登录

从媒介

图嵌入技术

TensorRT 8。这是你需要知道的东西。

如何设计一个神经网络

数据预处理在Python中使用Scikit-learn

Andrew Ng的机器学习课程在Python -练习5

产品机器学习思考

Pytorch闪电转移学习自定义数据集

ViTrox组件的身体检测的挑战