特征缩放

发表于 2019-04-10 更新于 2021-04-14 分类于深度学习/deeplearning 阅读次数：19

本文字数： 604 阅读时长 ≈ 1 分钟

在多变量回归或分类问题上，需要保证这些变量的取值范围具有同一尺度

原因一：确保大尺度变量不会左右分类器的分类结果。如果分类器利用结果变量的距离来计算损失函数，那么小尺度变量的变化会被忽略，大尺度变量会决定分类效果原因二：帮助梯度下降算法收敛更快。参考机器学习--特征缩放/均值归一化，从损失函数等值线图可知，变量在同一尺度下能够更快的通过梯度下降算法收敛

常用的特征缩放方法包括标准化（或称为规范化）和区间缩放

标准化

标准化方法就是将数据变换为均值为0，方差为1的标准正态分布。标准化公式如下

$x_{i}^{'} = \frac{x_{i} - μ_{i}}{s_{i}}$

其中 $x_{i}$ 是第 $i$ 个属性的特征向量， $x_{i}^{'}$ 是变换后的特征向量， $μ_{i}$ 是第 $i$ 个属性的均值， $s_{i}$ 是第 $i$ 个属性的标准差

要求：变量服从正态分布

区间缩放

将特征值缩放到某个特定大小的区间，比如[0,1]，计算公式如下：

$x_{i}^{'} = \frac{x_{i} - m i n (x_{i})}{m a x_{x_{i}} - m i n_{x_{i}}}$

其中 $x_{i}$ 是第 $i$ 个属性的特征向量， $x_{i}^{'}$ 是变换后的特征向量，函数 $m a x ()$ 和 $m i n ()$ 用于求该属性的最大最小值

大海

特征缩放

标准化

区间缩放

相关阅读