1. 显著性检验基本概念

显著性检验又称假设检验,是根据总体的理论分布和小概率原理,对未知或完全不知道的总体提出两种彼此对立的假设,根据抽样结果做出在一定概率意义上应该接受的那种假设的推断。如果抽样结果使小概率事件发生,则拒绝假设,反之则接受假设。

进行显著性检验,首先要对总体提出假设,一般应作两个彼此对立的假设:

  • 无效假设(又称零假设),记作 H0H_0
  • 备择假设,记作 HAH_A

2. 一元线性回归中的统计量

y^=a+bx\hat y=a+bx

其中,a 和 b 的取值应使因变量的观测值与回归估计的残差平方和(记作 Q)最小:

Q=1n(yy^)2Q=\sum_1^n(y-\hat y)^2

解出 a 和 b 的取值:

a=yˉbxˉb=(xxˉ)(yyˉ)(xxˉ)2=SPSSx\begin{aligned} a&=\bar y-b\bar x\\ b&=\frac{\sum(x-\bar x)(y-\bar y)}{\sum(x-\bar x)^2}=\frac{SP}{SS_x} \end{aligned}

其中,SSxSS_x 表示 x 的离均差平方和(同理,SSySS_y 表示 y 的离均差平方和), SPSP 表示 x 的离均差乘积和

因变量y的总变异(yyˉy-\bar y)可以分为自变量x引起的变异和误差引起的变异(后者称为残差或离回归差, ϵ=yy^=yabx\epsilon=y-\hat y=y-a-bx),即离均差平方和等于回归平方和与残差平方和的和:

(yyˉ)2=(y^yˉ)2+(yy^)2SSy=U+Q\begin{aligned} \sum(y-\bar y)^2&=\sum(\hat y - \bar y )^2+\sum(y - \hat y )^2\\ SS_y&=U+Q \end{aligned}

其中, UU 表示回归平方和。决定系数 r2r^2 为回归平方和占 y 的离均差平方和的比率(相关系数 rr 是决定系数的平方根,其符号表示相关性的正负):

r2=USSy=1QSSyr^2=\frac{U}{SS_y}=1-\frac{Q}{SS_y}

残差的方差是残差平方和与其自由度之比(残差受到均值为 0 和 b 两项约束,所以自由度是 n2n-2),残差的标准差 sy/xs_{y/x} 是方差的平方根,:

sy/x=Qn2s_{y/x}=\sqrt{\frac Q{n-2}}

斜率(回归系数) b 的标准误差 sbs_b 为:

sb=(yy^)2(n2)(xxˉ)2=sy/xSSxs_b=\sqrt\frac{\sum(y-\hat y)^2}{(n-2)\sum(x-\bar x)^2}=\frac{s_{y/x}}{\sqrt{SS_x}}

3. 一元线性回归的检验

对于线性回归的显著性检验可分为对回归方程的检验和对回归系数的检验。前者使用 F 检验,后者使用 t 检验。对于一元线性回归而言,两种检验方式的结果是完全一致的。

3.1 F 检验

F 检验根据两组样本的方差之比值判断它们是否来自同一个总体。对于线性回归,我们检验的是回归方差和残差方差,如果回归方差明显大于残差方差,则认为自变量和因变量间存在线性关系。因此作出无效假设 H0H_0:两变量间无线性关系以及备择假设 HAH_A:两变量间有线性关系。

在无效假设下,回归方差与残差的比值服从 df1=1df_1=1df2=n2df_2=n-2 的 F 分布( dfdf 为自由度):

F=U1Qn2=UQ×(n2)F=\cfrac{\cfrac U1}{\cfrac Q{n-2}}=\frac UQ \times (n-2)

由于 F ≥1 恒成立,因此用单尾检验。

3.2 t 检验

t 检验根据样本平均数与样本方差判断其与平均值已知的总体的差异。对于线性回归,我们检验的是**斜率(回归系数)b 是否来自于均值为 0,标准差为 sbs_b 的总体。**作出无效假设 H0H_0:b=0 以及备择假设 HAH_A:b≠0.

按如下公式计算 t 值:

t=bβsb=bsbt=\frac{b-\beta}{s_b}=\frac{b}{s_b}

上式遵循 df=n2df=n-2 的 t 分布,由 t 值可得出回归系数落在均值为 0 的总体中的概率。

因 t 值可大于或小于 0, 所以用双尾检验。

3.3 F 检验和 t 检验的关系

由下式可得,F 值是 t 值的平方,且 df1=1df_1=1df2=n2df_2=n-2 的单尾 F 值也是df=n2df=n-2 的双尾 t 值的平方。因此,对于一元线性回归,F 检验和 t 检验是完全等效的(对于多元回归则不是)。

t2=(bsb)2=b2sy/x2SSx=UQ×(n2)=Ft^2=\left(\frac{b}{s_b}\right)^2=\frac{b^2}{\cfrac{s^2_{y/x}}{SS_x}}=\frac{U}{Q}\times (n-2)=F

3.4 t 值与相关系数的关系

由上述关系整理可得

t=r21r2×(n2)=rn21r2t=\sqrt{\frac{r^2}{1-r^2}\times (n-2)}=\frac{r\sqrt{n-2}}{\sqrt{1-r^2}}

即对于一元线性回归而言,对相关系数 r 的检验也等效于其他两种检验。

3.5 总结

综上所述,p 值与 t 值有关,而 t 值与相关系数和样本个数相关,因此 p 值受到相关系数和样本个数两个因素的影响。p < 0.05 表示应拒绝无效假设,接受备择假设,认为:①自变量和因变量之间存在线性关系;②回归系数(斜率)≠0