作者:sweet梓潼_470 | 来源:互联网 | 2023-05-17 17:37
注明:本文主要参考https:stats.stackexchange.comquestions29781when-conducting-multiple-regressio
注明: 本文主要参考https://stats.stackexchange.com/questions/29781/when-conducting-multiple-regression-when-should-you-center-your-predictor-varia中的回答
一般来说,我们再做线性回归时并不需要中心化和标准化数据。大多数情况下数据中的特征会以不同的测量单位展现,无论有没有中心化或者标准化都不会影响线性回归的结果。因为估计出来的参数值
β
会恰当地将每个解释变量的单位
x
转化为响应变量的单位
y
.
但是标准化数据能将我们的结果更具有可解释性,比如
β1=0.6
和
β2=0.3
, 我们可以理解为第一个特征的重要性是第二个特征的两倍。
对于中心化,最主要的应用是在当我们用二次或者三次运算来创造一个新的特征的时候,中心化可以有效地避免共线性。比如你有一个变量
X
, 范围是1到2,你觉得
X
跟
Y
是曲线型的关系,所以你想要创造一个特征
X2
。但如果你没有对X进行中心化,你所得到的
X2
和
X
会具有很大的相关系数,这将会影响到最终的
β
参数的估计。