线性回归相关笔记

一.R-squared(拟合度)

  R-squared是一个衡量模型拟合度的量。

  计算公式:

                R-squared=\frac{SSR}{SST}=1-\frac{SSE}{SST}

  其中:SST是原始数据和均值之差的平方和,SSR即预测数据和原始数据均值之差的平方和,回归模型不能解释的方差。SSE是拟合数据和原始数据对应点的误差的平方和,且SST= SSE+SSR。

  R-squared的值越接近于1,拟合度越好。

二.多重共线性的检测

  多重共线性现象:自变量之间存在相互依赖关系,多重共线性表明了两个或多个自变量之间的关联。

  检测方法及流程:

  1.忽略目标变量,获取所有的预测变量,将这些变量表示为 x_1.x_2,x_3,..,x_p

  2.选择一个预测变量作为目标,然后使用其余的预测变量创建回归模型。在该示例中建立的模型数量为p**。

  model1: x_1 vs. x_2,x_3,x_4,...,x_p

  model2:x_2vs.x_1,x_3,x_4,...,x_p

  model3:x_3vs.x_1,x_2,x_4,...,x_p

  ...

  modelp: x_pvs.x_1,x_2,x_3,...,x_{p-1}

  3.验证上述的p个回归模型,然后,记录这些模型的 R-squared 值。如果任意一个模型的 R-squared 值超过了 80%,则表明该模型存在多重共线性问题。

  4.用于检测多重共线性的评测指标为方差膨胀因子(Variance Inflation FactorVIF)。该指标的取值来源于每个模型的 R-squared 值,计算公式如下所示:

\ \ \ \ \ \ \ \ \ \ \ \ \ VIF=\frac{1}{1-R^2} (注意:R^2只是R-squared的一种表示方式,并非是取平方值)

  5.每个自变量都有一个 VIF 值,即模型以该变量作为目标变量所计算得到的 VIF 值。如果 VIF 的值大于5,则表示该自变量的模型 R-squared 值大于80%。这就意味着该变量都能用其他变量来解释,因此用该自变量构建的模型就存在多重共线性。

  6.在工业界和其他一些公司的通用标准中,VIF 的值大于5。在某些案例中,也能看到 VIF 的阈值设为4。

三.构建多元回归模型的步骤

  1.探索数据和清理数据。处理缺失值和离群值。

  2.使用所有的预测变量构建第一个回归模型。

  3.查看模型的 R-squared 值。在工业基准中,模型的 R-squared 值大于或等于 80%,则认为其是好模型。

  如果模型的 R-squared 值非常小,则查看数据并收集更多有用的预测变量。

  如果模型的 R-squared 值能满足要求,则进入变量选择和删除的步骤。

  4.使用 VIF 检测变量的个体影响力。

  如果 VIF<5,则表示该变量具有独立性,因此在模型中需要保留该变量。

  如果 VIF>=5,可以将其从模型中删除。依次删除 VIF>=5 的变量,不要一次性全部删除。

  5.使用 p-value 检验变量的个体影响力。

  如果 p-value<0.05,表示该变量有影响力,在模型中应该保留该变量。

  如果 p-value>=0.05,表示该变量没有影响力,在模型中可以删除该变量。