本科计量经济学之回炉重造篇

本文基于本科的计量经济学课程,主要涉及宏微观、高等数学、线性代数、统计学相关知识。
学完我们需要掌握的主要内容包括计量经济学中基本假设及违背基本假设的处理;横截面、面板数据的分析与处理;基础时间序列分析与预测

参考书籍为

1 基本假设篇

通常在实际研究的计量经济学问题中,完全满足回归的基本假设的情况并不多见。不满足基本假定的情况。称为违背基本假定,其情况主要包括:

  1. 随机干扰项存在异方差
  2. 随机干扰项的序列相关(或称自相关)
  3. 解释变量之间的多重共线
  4. 解释变量为随机变量,存在内生性

1.1 异方差性

线性模型的基本假设中有$Var(\mu|x_1,x_2,\cdots,x_k)=d$,即随机干扰项的方差不因自变量的不同而不同。表现在现实的经济生活中,以消费水平受到收入水平的影响为例。$C = b_0 + b_1 * Y + \mu$,对于收入水平Y较低的群众而言,消费情况的变化是比较小的,但是对于收入水平较大的群体而言,其消费水平的变化差异可能就非常大了。用公式表示,即为$var(\mu|x_1,x_2,\cdots,x_k) = f(x_i,d)$

1.2 数据异方差性的后果

  1. 导致参数估计无效,在估计的有效性中,利用了$Ε(\mu '\mu)= d^2I$这条同方差的假设,但是现在d与X是相关的,不能直接拿出来
  2. 参数显著性检验失去意义(显著性检验中,是要用到随机干扰项的误差的,由于异方差性,使用最小二乘法得出来的参数的方差并不是其真实方差了)
  3. 模型预测失效。(模型预测也是要用到随机干扰项的方差的)

1.3 检验异方差

  1. 图示检验(使用Y-X散点图,或者$e^2~X$散点图进行判断,如果呈现一条水平线则是不存在异方差,否则,可能存在),这种方法的问题是:判断并不准确,是否算是水平线还是复杂性的异方差无法判断

  2. 帕克(Park)检验与戈里瑟检验。 对样本残差平方$e_i^2$与X之间进行检验。设定模型$e_i^2\sim f(X)+\mu $,如果$e_i^2$与X之间存在显著的相关性,则原模型存在异方差性。该检验存在的问题:模型$e_i^2\sim f(X)+\mu $的函数形式和变量选择存在不确定性,而且,该模型本身自己也可能存在异方差性

  3. G-Q(Goldfeld-Quandt)检验:

  • a.按照某一个被认为可能存在异方差性的变量将样本进行从小到大的排序;
  • b.将样本分成两个部分,一个部分自变量大,一个部分自变量小;
  • c.对这两个样本分别进行回归,得到各自的残差平方和,在同方差的假设下,这两个残差平方和的大小应当是差异不大的;
  • 使用上面得出的残差平方和构建F统计量。

方法的问题:只能检验单调递增还是单调递减型方差,并且可能需要对各个解释变量进行轮流实验。

  1. 怀特检验进行辅助回归:$e_i^2 \sim b_0 + b_1x_1 + b_2x_2 + b_3x_1x_2 + b_4x_1^2 + b_5x_2^2 + \mu $,可以证明,在同方差的假设下,从该辅助回归得到的$R^2$与样本容量的积,渐近服从自由度为辅助回归方程中解释变量个数的卡方分布 $nR^2 \sim \chi^2(k)$ 。WLS加权最小二乘法思想就是将不稳定的方差转换为稳定的方差乘以一个不稳定的函数。通过变换,使得模型变为同方差的情况。

  假设我们已经知道了随机误差项的方差和自变量之间的关系: $var(\mu_i)=E(\mu_i^2)=d_i^2=f(X_{i,j}) \cdot q^2$ (而不是在无异方差的情况下的 $var(\mu |X)=q^2$ )。那么,我们可以使用$\sqrt{f(X_{ij})}$去除以原模型,使得变化后的模型称为无异方差的情况。注:公式中$j$为变量的标号, $i$为样本的标号。 变化后的模型如下:

$$ Y_i / \sqrt{f(X_{ij})} = b_0 / \sqrt{f(X_{ij})} + b_1x_1 / \sqrt{f(X_{ij})} + \cdots + b_k x_k / \sqrt{f(X_{ij})} + u_i/\sqrt(f(X_{ij}))$$

注意到这里,每个变量$X_{ij}$除以的都是其相对应的$f(X_{ij})$. 上面模型,异方差就是不存在的了,便可以用加权后的模型对参数进行估计。现在的问题是,如何对权重$f(x_{ij})$进行估计呢?

观察可以发现,等式左边可以用样本残差$e_i^2$来代替,等式左边$f(X_{ij})$中有$j$个参数,$q^2$为另一个参数。两边取对数,能够将等式转换为线性模型进行估计。接着就是使用帕克检验的方法,进行各种形式的尝试。从而估计出$f(X_{ij})$的形式 。

1.4 异方差稳健标准误法

加权最小二乘法的关键是要寻找模型中随机扰动项$\mu $的方差与解释变量间的适当的函数形式,而这并非一件容易的事。

如果很难找到的话,可以用异方差的稳健标准误方法,进行替代。 在有异方差的情况下,参数估计仍然是无偏的,但是参数估计的方差和标准差会与传统的有所区别,从而无法保证估计的有效性,但并不影响估计的无偏性和一致性。那么我们仍然采用普通的最小二乘估计量,但是在进行参数检验的时候使用修正后的相应方差。(至于参数的有效性无法满足的问题,并不关注)

  1. 在无异方差下,参数估计的方差为$var(b|X) = d^2 (x’x)^{-1}$,在有异方差下,则为 $var(b) = (x’x)^{-1}x’D(x’x)^{-1}x’$,这里$D$为$n*1$的向量。使用普通最小二乘法估计的残差平方$e_i^2$形成的向量$e’e$作为向量D的代表。怀特证明了这种做法是对$var(b) = (x’x)^{-1} * x’ * D * (x’x)^{-1} * x’$的一致估计。
  2. 当存在异方差时,异方差稳健标准误法虽然不能得到有效的参数估计,但是由于得到了普通最小二乘估计量的正确的方差估计,使得以估计量方差为基础的各项检验不再失效,是消除异方差性不良后果的主要手段。

2 序列相关性

2.1 序列相关的含义

  在经典的线性模型假设中,有随机干扰项独立,即互不相关的假设。这个假设的意思是说,对于造成结果而言,不能由自变量解释到的那部分随机干扰项是独立的。例如,有两块相邻的水田,其各自产量与施肥量,日照量等有关。但两块水田产量的随机因素之间是不存在关系的,不会因为这块水田随机因素大,那块也大。

用公式描述,就是:$Cov(\mu _i, \mu _j)=0$, i和j是观测样本。序列相关则意味着样本之间随机因素是具有相关性的,上面例子中,有些无法观测到的对水田产量的因素,例如土壤肥力如果是随机干扰项的话,那么毫无疑问相邻两块土地之间的随机干扰项是具有相关性的。

通常,由于样本中有$n$个随机干扰项,如果仅存在$E(\mu _i,\mu _{i+1})\neq 0$,那么称之为一阶自相关,一阶自相关是比较常见的序列相关问题。例如:一个人的素质可能与他的朋友的素质是相关的,但是与其朋友的朋友的素质之间,相关性就可以忽略了;或者我们可以理解为,一个人素质与其朋友的朋友之间的关系,事实上是通过其朋友来传导的。那么,这样我们就可以将多阶自相关的问题,通过一阶自相关来理解了。

因此,为了能够便于理解和进行计算,我们通常都进行一阶自相关的研究。我们将一阶自相关用公式表述为:$\mu _i = p*\mu {i+1} + e{i -1} < p$

一般经验而言,对于采用时间序列数据作样本的计量经济学问题,由于在不同样本点上解释变量以外的其它因素(随机干扰项)在时间上的连续性,或者说惯性,往往会导致序列相关性。

2.2 序列相关性的后果

  1. 参数估计非有效:在有效性的证明中利用了 $E(uu’) = d^2I$, 但是现在这个条件是无法满足了。所以有效性便不再满足。

  2. 变量的显著性检验失去意义:随机干扰项向量的协方差矩阵不再是 $d^2I$,因此原本的参数分布和显著性t检验也不再满足。

  3. 模型的预测失效:原因同变量显著性检验失去意义。

2.3 检验序列相关

  1. 图示法: 使用OLS的样本残差作为随机干扰项的估计,画出$e_t$和$e_{t-1}$之间的散点图,看二者之间是否存在明显的相关性。该方法存在主观性和不确定性。

  2. 回归检验法: 对$e_t$和$e_{t-1}$进行回归检验,看二者之间是否存在显著的关系。

  3. DW检验:构造一个统计量,服从DW分布,然后再使用DW准则进行检验。(用的较少,局限性很大)

  4. 拉格朗日乘数(LM)检验:将模型转换为受约束的回归方程即 $Y_i=b_0+b_1*x_{i1}+b_2*x_{i2}+\cdots+b_k*x_{ik}+p_1*u_{i-1}+p_2*u_{i-2}+\cdots+p_k*u_{i-k}+e_k$。检验约束条件$H_0:p_1=p_2=\cdots =p_k=0$(k可以自行决定),再使用检验模型约束条件的LM统计量检验该约束条件即可。

2.4 如何补救序列相关

补救序列相关与补救异方差一样,存在两种思路:

  • 一就是变换原模型为不存在序列相关的模型,再用OLS来进行估计,即为广义最小二乘法(GLS)和广义差分法(GDM);
  • 另一条途径是仍然采用OLS的估计参数,但是对参数估计量的方差或者标准差进行修正。

2.4.1 广义最小二乘法

  广义最小二乘,是具有普遍意义的最小二乘,普通最小二乘和加权最小二乘是它的特例。广义最小二乘是不需要同方差性和无序列相关的假设的。它将随机变量的协方差矩阵不再表示为 $d^2I$这样的形式, 而是用$cov(u,u’) = p^2 * W$来表示。其中 $W = DD’$.进一步的,变换模型为 $D^{-1}*Y = D^{-1} * X_b + D^{-1}*u$, 该模型便不再有异方差和序列相关,可以对其使用OLS进行估计。(李子奈《计量经济学》pp.127)

  广义最小二乘法真正的难题是如何去估计协方差矩阵$W$,在序列自相关的情况下,若只有$n$个样本点,要对$\frac{n*(n-1)}{2} + k +2$ 个参数进行估计是几乎不可能的。因此,只能是说对随机干扰项自相关的结构事先给出必要的假设。一般而言,我们假设随机干扰项是一阶自相关的:即$\mu _t = p\mu _{t-1} + e$,对该模型进行估计,便可以得到协方差矩阵W以及权重矩阵D 。

2.4.2 广义差分法

  广义差分法实质上就是广义最小二乘法,不过是损失了部分样本观测值,具体可见《计量经济学》(李子奈)pp.129。

随机干扰项相关系数的估计:无论是使用广义最小二乘法还是广义差分法,都需要知道不同样本点之间随机干扰项的相关系数$r_1,r_2\cdots r_p$等,必须对其进行估计,即对$u_t = r_1 * u_{t-1} + r_2 * u_{t-2} + …+ r_p * u_{t-p} + e_t$进行估计。但是事实上$\mu {t}$是无法观测到的,我们只能使用$e{t}$来对其进行近似的估计。

具体方法为,先使用OLS对原始模型进行估计,对$e_{t},e_{t-1}\cdots e_{t-p}$之间进行线性估计得出随机干扰项的相关系数。再将其带入到广义差分法或者广义最小二乘法中,得到新的$e_{t},e_{t-1}\cdots e_{t-p}$,再次进行估计,得出他们的相关系数,重复上述步骤,直到$e_{t},e_{t-1}\cdots e_{t-p}$的值趋于稳定。我们称该方法为科克伦-奥科特(Cochrane-Orcutt)迭代法

序列相关稳健标准误法存在序列相关时,OLS估计的无偏性和一致性仍然是有的,但是有效性无法保证,因此,我们可以对随机干扰项的协方差进行修正,在进行显著性检验时使用改修正的稳健标准误。具体公式过于冗长,可参考《计量经济学》(李子奈)pp.130

2.5 虚假序列相关问题

  若模型设定中遗漏了重要的解释变量,从而导致了序列相关的出现,我们称之为虚假序列相关。我们在处理序列相关问题时,应当要将虚假序列相关的可能性先排除掉,即排除掉遗漏变量的可能。如何避免出现模型设定的偏误问题呢?那就是在开始时建立一个“一般”的模型,然后逐渐剔除缺失不显著的变量。

3 多重共线性

共线性是指自变量之间存在较大的相关性,导致$|X’X| \neq 0$,从而$(X’X)^{-1}$对角线上的元素较大,随机干扰项的协方差矩阵$d^2(X’X)^{-1}$对角线上的元素也较大,导致一系列的不良后果。主要包括:

  1. 完全共线性下,估计量不存在,完全共线性下$|X’X|=0$,$X’X$没有逆,OLS没法得出参数估计量。
  2. 普通最小二乘法方差变大,导致通过样本计算出来的t值比较小$(X’X)^{-1}$在t统计量的分母中,导致t统计量较小),由于样本本身的共线性问题,导致了t检验的不可靠。同时,也会使得因变量区间预测的“区间”变大,使得预测失去意义,模型不能进行外推。
  3. 参数估计量的经济含义不合理。若$X_1,X_2$之间存在共线性,那么二者其中一个可以由另一个表征出来。他们各自的参数估计量不再代表本身的经济意义,而是代表二者对被解释变量的共同影响。经验告诉我们,在多元线性回归模型的估计中,如果出现了参数估计值的经济意义明显不合理的情况,应该首先怀疑是否存在多重共线性

3.1 造成多重共线性的原因

  1. 经济变量相关的共同趋势。这在时间序列样本中情况比较多。
  2. 滞后变量的引入。例如,居民消费$C$受到总收入以及前期的消费$C_{t-1}$的影响,但是毫无疑问的,前期的消费$C_{t-1}$会影响到当期的收入$Y_{t}$。所以模型中毫无疑问会出现共线性的问题。在这样一种情况下,$Y_{t}$的参数$b_{1}$就不再代表收入对消费的影响了,而是$Y_{t}$与$C_{t-1}$对$C_{t}$的共同影响,二者的参数经济意义不明了。所以可能会出现不合常理的参数估计值。
  3. 样本资料的限制。由于社会科学采用的数据是“社会实验”得出,而并非是控制实验得出,所以自变量样本是不受控制的,某些变量之间可能总是会存在一些共线性。例如时间序列样本就算是这种情况。

3.2 多重共线性的检验

对两个解释变量:可以通过解释变量的样本协方差矩阵,发现解释变量之间的两两相关性,对于相关性非常高的两个解释变量,可能存在共线性的问题。

对多个解释变量之间的相关性:所谓多个解释变量相关就是如$x_1 = x_2 + x_3 + x_4$这种。使用综合统计检验,如果在OLS下,模型的$R^2$与$F$值较大,但是各参数检验的$t$值较小,说明各解释变量对$Y$的联合线性作用显著。但从较小的$t$值,我们可以估计到,可能存在共线性,从而使得解释变量对$Y$的独立作用不能分辨,故$t$检验不显著。

3.3 判别多重共线性的范围

知道模型有多重共线性,进一步的,我们希望能够将引起多重共线性的变量找出来,以进一步地对模型进行调整。

具体的方法有判定系数检验法和逐步回归法。

  1. 判定系数检验法:使模型中每个解释变量分别以其余解释变量为解释变量进行回归计算,即 $X_{i} \sim x_{1} + x_{2}+\cdots +x_{i-1} + x_{i+1}+\cdots +x_{k}$。如果发现该模型的判定系数$R^2$较大,则说明该解释变量$x_{i}$能够用其它解释变量表征出来。至于如何判定$R^2$是否足够大,我们可以做$F$检验。

  2. 逐步回归法:

  • 先做$Y$与各$X_i$分别一元线性回归,找出$R^2$最大的那个$X_i$,以该一元线性回归为基础;
  • 逐个引入解释变量,观察拟合优度(修正后的拟合优度)的变化(也可以使用AIC准侧),如果拟合优度变化显著,则说明该变量是一个独立解释变量,如果拟合优度变化不显著,说明该解释变量可以用其它变量的线性组合替代,也就是说它与其它变量之间存在共线性关系。

3.4 克服多重共线性的办法

  1. 排除引起共线性的变量:这种方法可能存在的问题是,某变量本来是应当存在于模型当中的,只是由于样本的问题,使得该变量显示出共线性。剔除掉该变量将会导致回归模型在进行预测时的准确性下降。如果换一组样本,可能共线性的情况就不再存在了。因此,是否真的应当剔除掉变量应当还要进行实际经济模型或者实际意义进行考虑。如果某个变量是具有非常明显的经济意义的,那么即使该变量存在共线性,也不能轻易剔除掉。

  2. 差分法:常用于时间序列数据中,使用自变量和因变量的增量作为回归的变量。这是由于变量增量的相关性毫无疑问肯定是要比变量本身的相关性弱的。

  3. 岭回归与LASSO:可参见多重共线性的解决方法之——岭回归与LASSO

4 随机解释变量问题 (内生性问题)

  计量经济假设中,我们是假设自变量是确定变量,是非随机的。所谓是确定变量,我们可以用科学实验中的对照实验来进行说明,例如:判断不同的水分条件对粮食产量的影响时,我们将控制其它对产量有影响的变量,如光照,土壤,种子等,仅仅使得水分条件不一样,进而判断水分条件对产量的影响。在这种实验中,水分是可以进行人为控制的确定变量,我们称这种实验为“对照实验”。

然而,由于伦理和实际操作上的种种不可行,经济学家是不可能拿整个社会来做实验的。例如不能故意控制某个地方的公共投资高,另一个地方的公共投资低,从而判断政府公共投资对收入的影响。经济学家只能使用既有的现实社会运行数据,通过判断不同公共投资地区的GDP的不同来判断公共投资的影响,经济学家称这种为“自然实验”。 但是,事实上,公共投资却并不是完全的确定性的,它并不是政府主动控制想投入多少就投入多少,其大小毫无疑问是受到地方财政收入的约束的。从这个角度上来说,也就是GDP越高的地方,毫无疑问也就能够投入越多的公共投资。

那么公共投资与GDP的因果关系就变得非常复杂了,到底公共投资是因?还是GDP是因呢?我们称这种情况为随机解释变量问题:即解释变量无法控制,是具有随机性的。

  随机解释变量问题可以分为3种不同的情况:

  1. 随机解释变量$X_i$与随机干扰项$\mu $独立: $cov(X_{i},\mu ) = E(X_{i}\mu )= E(X_{i})*E(\mu )=0$,这种情况,随机解释变量问题对模型的估计不会产生影响。
  2. 随机解释变量$X_i$与随机干扰项$\mu $同期无关但是异期相关: $cov(X_{i}, \mu _{i-s}) \neq 0$,这种情况,得到的参数估计量是有偏的,但是却是一致的(可以从OLS估计量的形式中推出来)。
  3. 随机解释变量$X_i$与随机干扰项$\mu $同期先关:这种情况得到的参数估计量有偏且非一致。

4.1 引起内生性问题的通常理由

  1. 经济模型中因变量滞后项的引用,通常会造成随机解释变量异期相关。
  2. 存在互为因果的模型,例如上文所述公共投资与GDP。

4.2 随机解释变量的解决方法

4.2.1 工具变量

工具变量是指该变量与随机解释变量之间存在较高的相关性,而且对随机解释变量的解释能力也非常高($R^2$比较大),但是该解释变量与模型的随机干扰项不相关,与被解释变量也不相关。即满足:

  • 工具变量必须外生,即$Cov(z,\mu )=0$。
  • 工具变量必须与内生变量$x$相关,即$Cov(z,x) \neq 0$。

4.2.2 工具变量的估计

应该根据常识及经济理论判断$Cov(z,\mu )$是否合理。

我们可以检验$Cov(z,x )\neq 0$是否成立,即检验在$H_0:\pi_1 = 0$在$x=\pi_0+\pi_1 z+v$,这称作第一阶段回归

假设简单回归情形$y=\beta_0+\beta_1 x+\mu$,并给定我们假设$Cov(z,y)=\beta_1 Cov(z,x)+Cov(z,\mu )$

于是解出$\beta_1=\frac{Cov(z,x)}{Cov(z,x)}$,得到$\beta_1$估计量 $$\hat{\beta_1}=\frac{\sum_{i=1}^n(z_i-z)(y_i - \bar{y})}{\sum_{i=1}^n(z_i-\bar{z})(x_i - x)}$$

为了进行推断,我们需要计算统计量和置信区间的标准误。通常的方法是增加一个同方差假设

$E(\frac{\mu^2}{z})=\sigma2=Var(\mu )$ 得出, $$Var(\hat{\beta_1})=\frac{\sigma^2}{n\sigma_x^2 \rho_{x,z}^2} \\ se(\hat{\beta_1})=\frac{\hat{\sigma}^2}{ SST_{x}R_{x,z}^2}$$

未完待续 loading…

我只是试试,自己给自己转点钱!