首先广义矩估计($GMM$)很容易使我们联想到统计学中参数估计方法之一的矩估计。
矩估计
矩估计是什么呢?简单的说,就是用样本矩代替总体矩进行统计推断的方法。
一个最基础的例子是正态总体的参数估计问题。如果$x_i \sim N(\mu,{\sigma}^2)$,如何估计$\mu$和$\sigma$呢? 本科的统计学一般会介绍两种方法:极大似然估计和矩估计。其中矩估计是我们今天的主角。观察到:
$$E(x_i)=\mu,\quad E(x_{i}^2)={\mu}^2+{\sigma}^2$$ 而根据大数定理,在一定的条件下,我们有: $$\bar{x_i}-\mu=O_p(1),\quad \bar{x_{i}^2}={\mu}^2+{\sigma}^2+O_p(1)$$
也就是说,当样本量足够大的时候,样本矩与总体矩只差了一个无穷小量,那么我们是不是可以用样本矩代替总体矩得到参数的估计呢?
按照上面的思路,我们把$O_p(1)$去掉,同时把未知的总体参数写成其估计值,也就是$\hat{x}$的形式,我们得到了: $$\hat{\mu}=\bar{x_i},\quad \hat{\sigma^2}=\bar{x_{i}^2}+\bar{x_i}^2$$
如此,我们得到了两个总体矩的点估计。在这个简单的例子里面,你只要把上面的大数定理的结论带到上面两个式子里面,很容易的就可以证明出两个点估计是一致的估计量。当然,值得注意的是,即便我使用的是矩条件,$\sigma$的估计也不是无偏的。一般而言,除了特殊情况,不管是$MLE$还是$MM$还是$GMM$,都不一定可以得到无偏的估计量。特别是在比较复杂的应用里面,一致就很不错了,无偏性的讨论真的繁琐。
广义矩估计
在上面的例子中,我们只使用了两个矩条件。然而我们知道,正态分布的矩是有无穷多个可以用的,那么我们是不是可以使用更多的矩条件呢?
但是有个问题不好解决。在这个例子里面,我们有两个未知参数,如果只使用一阶矩,那么只有一个方程解两个未知数,显然是不可能的。像上面一样,我们用两个矩条件解两个未知数,就解出来了。然而,当我们用一到三阶矩,总共三个方程求解的时候,三个方程求解两个未知数,可能无解。
方程数多了,反而没有解了,为什么呢?其实很简单,用三个方程中的任意两个方程,都可以求出一组解,那么三个方程我们就可以求出三组解。所以应该如何把这些矩条件都用上呢? 到这里我们不妨引入一些记号。还是使用上面的例子,我们把上面的三个矩条件写到一个向量里面去,记:
$$g(x_i,\theta)=[x_i-\mu,{x_i}^2-\mu^2-\sigma^2,{x_i}^3-\mu^3-3\cdot \mu \sigma^2],\theta={\mu,\sigma^2}$$ 我们可以得到一个$3*1$的列向量,并且:
$$Eg(x_i,\theta)=0$$
上面就是我们要用的矩条件。而根据上面的思路,用其样本矩代替总体矩:
$$\frac{1}{N}\sum_{i}g(x_i,\hat{\theta})=0$$ 解这个方程应该就可以得到参数$\theta$的估计。但是正如上面所说的,三个方程两个未知数,并不能确保这个方程有解,所以必须想一些其他办法。一个比较自然的想法是,上面的矩条件等于0,虽然我不太可能保证三个方程同时等于0,但是仿照$OLS$,我们可以让他们的平方和最小,也就是:
$$\underset{\hat{\theta} }{min}{ [ \frac{1}{N}\sum_{i}g(x_i,\hat{\theta}) ]}’[\frac{1}{N}\sum_{i}g(x_i,\hat{\theta})]$$ 这样我们就能保证三个矩条件的样本矩都足够贴近于0,当然不可能同时为0。这样不就综合使用了三个矩条件的信息么?
更一般的,由于上面的$g$函数是一个$3*1$的列向量,我们可以使用一个权重矩阵$W$来赋予每个矩条件以不同的权重:
$$\underset{\hat{\theta} }{min}{ [ \frac{1}{N}\sum_{i}g(x_i,\hat{\theta}) ]}'W[\frac{1}{N}\sum_{i}g(x_i,\hat{\theta})]$$
只要这个$W$是一个正定矩阵,那么仍然可以保证每个样本矩都足够贴近于0。 那么问题来了,既然对$W$的要求只要求正定矩阵,那么使用不同的权重矩阵就有可能得到不同的结果。
问题是,有没有一个最优的权重矩阵呢?当然是有的。可以证明,最优的权重矩阵应该是:使用这个权重矩阵,就得到了最有效的估计。
$GMM$估计相当于给不同的矩条件赋予了不同的权重,然后才能这个权重得到最小化条件,不同的权重阵其实就对不同的估计量,“OLS, IV, 2SLS, GLS, RE, FE, SUR, 3SLS, Pooled OLS…全是它的特殊情况”
GMM延伸
计量经济学的很多问题基本都可以归结为$GMM$的问题。从最简单的$OLS、2SLS$到稍微复杂一点的面板数据、动态面板等等,本质上都是在找矩条件。比如工具变量的$2SLS$,可以发现矩条件不过就是:
$$E[(y_i-{x_i}’\beta)*z_i]=0$$
套一下上面的公式,最优权重矩阵(的逆)为:
$$E[(y_i-{x_i}’\beta_0)*z_i*{z_i}’*(y_i-{x_i}’\beta_0)’]=E[e_i^2z_i{z_i}’]=\sigma^2Ez_i{z_i}’$$
带入到目标函数中,就得到了$2SLS$。甚至,一些其他的估计量,比如$MLE、M-estimator$等,在一定的条件下也可以转化为$GMM$,因为这些估计量的一阶条件可以看成是矩条件。所以$GMM$也就变成了一个统一的框架。为什么$GMM$这么受欢迎呢?因为$GMM$把复杂的统计过程抽象化成为一个(看似)简单的过程:找矩条件。只要你能找到矩条件,你就能估计。$GMM$把估计的繁琐细节全都抽象了,面对一个模型,你所需要做的所有事情就是找到矩条件,证明这个模型是可以识别的,然后什么也不用管,一股脑儿塞进去,结果就出来了。
所以呢如果你去看一些稍微复杂的模型,基本都可以归结为矩条件。