残差是回归分析中观测值与预测值之间的差异。 计算方法如下: 残差 = 观测值 – 预测值 回想一下,线性回归的目标是量化一个或多个预测变量与响应变量之间的关系。为此,线性回归会找到最“适合”数据的线,称为最小二乘回归线。 该线为数据集中的每个观测值生成预测,但回归线做出的预测不太可能与观测值完全匹配。 预测值和观测值之间的差异就是残差。如果我们绘制观测值并叠加拟合回归线,则每个观测值的残差将是观测值与回归线之间的垂直距离: 如果观测值大于回归线的预测值,则观测值具有正残差。 相反,如果观测值小于回归线的预测值,则观测值具有负残差。 一些观测值将具有正残差,而另一些观测值将具有负残差,但所有残差加起来为零。 残差计算示例 假设我们有以下数据集,总共有 12 个观测值: 如果我们使用统计软件(如R 、 Excel 、 Python 、 Stata等)对该数据集拟合线性回归线,我们会发现最佳拟合线是: y = 29.63 + 0.7553x 使用这条线,我们可以根据 X 的值计算每个 Y 值的预测值。例如,第一个观测值的预测值将是: y = 29.63 + 0.7553*(8) = 35.67 然后我们可以计算该观测值的残差,如下所示: 残差 = 观测值 – 预测值 = 41 – 35.67 = 5.33 我们可以重复这个过程来找到每个观察的残差: 如果我们创建一个散点图来使用拟合回归线可视化观测值,我们将看到一些观测值位于线上方,而其他观测值位于线下方: 残留物的性质 残基具有以下性质: 数据集中的每个观测值都有相应的残差。因此,如果数据集总共包含 100 个观测值,则模型将生成 100 个预测值,从而总共产生 100 个残差。 所有残差之和为零。 残差的平均值为零。 残留物在实践中如何使用? 实际上,在回归中使用残差有以下三个不同的原因: 1. 评估模型的充分性。 一旦我们生成了拟合回归线,我们就可以计算残差平方和 (RSS) ,它是所有残差平方和。 RSS 越低,回归模型对数据的拟合效果越好。 2. 检查正态性假设。 线性回归的关键假设之一是残差呈正态分布。 为了检验这个假设,我们可以创建 QQ 图,这是一种可以用来确定模型的残差是否服从正态分布的图。 如果图上的点大致形成一条直线对角线,则满足正态性假设。 QQ 情节示例 3. 检查同方差假设。 线性回归的另一个关键假设是残差在 x 的每个水平上具有恒定方差。这称为同方差性。如果情况并非如此,残差就会出现异方差。 为了检查是否满足这个假设,我们可以创建一个残差图,它是一个散点图,显示相对于模型预测值的残差。 绘制残差值和调整值的示例 如果图中残差近似均匀分布在零附近,没有明显的趋势,那么我们通常说满足同方差假设。 其他资源 简单线性回归简介多元线性回归简介 线性回归的四个假设如何在 Excel 中创建残差图