回归分析:如何解释回归标准误差S

已认证账号

当我们确定一个线性模型与数据的吻合程度时，几乎会将所有注意力集中在R-squared上。但是,以前我曾经说过R-squared被高估了。是否能借助另一个更有帮助的拟合优度统计量呢?

今天,我将向大家强调一个严重被低估的回归统计量S,或者被称为回归的标准误差。S提供了一些R-squared无法提供的重要信息。

什么是回归的标准误差（S）

数据越接近拟合线，S的值会变得越小

在Minitab回归分析的输出中,你可以在模型汇总部分中R-squared的旁边找到S。这两个统计指标都能从总体上衡量模型与数据的吻合程度。S是已知的回归标准误差,用于估计分析的标准误差。

S表示的是观测值到回归线的平均距离，简单的说 ,它告诉你使用回归模型预测响应变量的平均误差。S越小，模型越好，因为它表明,观察值更接近拟线。

上面的图形是我以前文章中用到的拟合图，我通过体重指数（BMI）来预测身体中脂肪的百分比。S等于3.53399,这告诉我们,数据点到拟合线的平均距离即身体脂肪的比例约为3.5%。

跟R-squared不同的是,您可以使用回归的标准误差来评估预测的精度。大约有95%的观测值应落在距离回归线+ / - 2 *标准误差的范围内,这也就是95%预测区间的范围。

在BMI的例子中,约有95%的观测值应落在+ / - 7%的拟合线范围内,这跟预测区间是一致的。

为什么喜欢回归的标准误差（S）

在许多情况下,我更喜欢回归的标准误差而不是R-squared。我喜欢实际的方式，通过自然单位来反应响应变量。如果我需要进行精确的预测,我会快速检查S来评估精度。

相反,不带单位的R-squared不能提供预测值和观测值接近程度的直观的感受。此外,正如我在这里描述的那样, 当你需要进行精确的预测时，才主要考虑R-squared。但是,你不能用R-squared评估精度,这时它没有意义。

为了说明这一点,让我们回到BMI的例子中。回归模型的R-squared等于76.1%, S为3.53399%的身体脂肪百分比。假定我们要求预测误差必须在+ / - 5%的实际值范围内。

R-squared是否足够高以达到这个精度? 不得而知。但是,S必须< = 2.5时才能产生足够窄的95%预测区间。瞥一下,我们可以看到,当前模型需要更精确。谢谢S!

你可以在我的回归教程中，了解更多获取和使用预测区间的内容。

编辑于 2018-08-28 14:34