Machine Learning

CtrlK

特征

特征标准化

通常用于特征标准化的途径有两种, 一种叫做 min max normalization, 他会将所有特征数据按比例缩放到0-1的这个取值区间. 有时也可以是-1到1的区间. 还有一种叫做 standard deviation normalization, 他会将所有特征数据缩放成 平均值为0, 方差为1. 使用这些标准化手段. 我们不仅可以快速推进机器学习的学习速度, 还可以避免机器学习学得特扭曲.

链接：https://zhuanlan.zhihu.com/p/24839177

特征离散化

“原生”的线性模型比较弱，可以对特征进行离散化。

截图是为了更好的展现原作者。

连续特征的离散化

参考佳文

最小角回归算法(LARS) 最小角回归Least Angle Regression（LARS），forward stagewise selection

特征选择（一）-维数问题与类内距离特征选择（二）-聚类变换特征选择（三）-K-L变换特征选择（四）-分散度机器学习中的数据清洗与特征处理综述机器学习中，有哪些特征选择的工程方法？

使用sklearn做特征工程

稀疏表示介绍(上) 稀疏表示介绍(中) 稀疏表示介绍(下)

正例和负例的数量偏差较大，应该怎样处理

处理离散型特征和连续型特征共存的情况归一化论述了对离散特征进行one-hot编码的意义

从PCC到MIC，一文教你如何计算变量之间的相关性

PreviousML碎碎念 Nexttest

Last updated 5 years ago

Was this helpful?