对数值类型的特征归一化可以将所有的特征都统一到一个大致相同的数值区间内。方法:
1)线性函数归一化(Min-Max scaling) 2)零均值归一化(Z-score Normalization) 通过梯度下降法求解的模型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络模型等。但决策树模型并不适用。
类别型特征(Categorical Feature)主要是指性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征
1)序号编码(Ordinal Encoding)
序号编码通常用于处理类别间具有大小关系的数据。如“高>中>低”–>“3>2>1”
2)独热编码(one-hot Encoding)
通常用于处理类别间不具有大小关系的特征。对于类别取值较多的情况下使用独热编码需要注意一下问题:
a)使用稀疏向量来节省空间
b)配合特征选择来降低维度
3)二进制编码(Binary Encoding)
主要分为两步:先用序号编码给每个类别赋予一个类别ID,然后将ID对应的二进制编码作为结果
还有其他编码方式:Helmert Contrast、Sum Contrast、 Polynomial Contrast、Backward Difference Contrast
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。
一种基于决策树的特征组合寻找方式
以点击预测问题为例,假设原始输入特征包含年龄、性别、用户类型(试用期、付费)、物品类型(护肤、食品等),构建决策树,得到四种组合方式
1)年龄<=35且性别为女
2)年龄<=35且护肤
3)付费用户且食品
4)付费用户且年龄<=40
对原始特征进行编码,(1,1,0,0)和(0,0,1,1)
1)词袋模型(Bag of Words)
将每篇文本看成一袋子词,并忽略每个词出现的顺序。通常,可以将连续出现的n个词(n<<N)组成的词组(N-gram)也作为一个单独的特征放到向量表示中去,构成N-gram模型。另外,不同词性相同含义的进行词干抽取(Word Stemming)处理。
2)主题模型
用于从文本库中发现有代表性的主题(得到每个主题上面词的分布特性),并且能够计算出每篇文章的主题分布。
3)词嵌入与深度学习模型
词嵌入是一类将词向量化的模型的统称。核心思想是将每个词都映射成低维空间(通常K=50~300维)上的一个稠密向量。K维空间的每一维也可以看作一个隐含的主题,只不过不像主题模型中的主题那样直观。
卷积神经网络和循环神经网络的结构在文本表示中取得了很好的效果,主要是由于它们能够很好地对文本进行建模,抽取出一些高层的语义特征。与全连接的网络结构相比,卷积神经网络和循环神经网络一方面很好地抓住了文本的特性,另一方面又减少了网络中待学习的参数,提高了训练速度,并且降低了过拟合的风险。
Word2Vec是目前最常用的词嵌入模型之一,是一种浅层的神经网络模型,它有两种网络结构,分别是CBOW(Continues Bag of Words)和Skip-gram
CBOW的目标是根据上下文出现的词语预测当前词的生成概率。
Skip-gram是根据当前词来预测上下文中各词的生成概率。
Word2Vec与LDA的区别和联系。首先,LDA是利用文档中单词的共现关系来对单词按主题聚类,也可以理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。而Word2Vec其实是对“上下文-单词”矩阵进行学习,其中上下文由周围的几个单词组成,由此得到的词向量表示更多地融入了上下文共现的特征。
主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式,其中包括需要推测的隐含变量(即主题);而词嵌入模型一般表达为神经网络的形式,似然函数定义为网络的输出之上,需要通过学习网络的权重以得到单词的稠密向量表示。
当训练数据不足时,说明模型从原始数据中获取的信息比较少,这种情况下要想保证模型的效果,就需要更多先验信息。
具体到分类任务三,训练数据不足带来的问题主要表现在过拟合方面。
1)基于模型的方法。主要是采用降低过拟合风险的措施,包括简化模型(如将非线性模型转化为线性模型)、添加约束项以缩小假设空间(L1/L2正则项)、集成学习、Dropout超参数等;
2)基于数据的方法。通过数据扩充。
a)一定程度内的随机旋转、平移、缩放、裁剪、填充、左右翻转等,这些变化对应着同一个目标在不同角度的观察结果
b)对图像中的像素添加噪声扰动,比如椒盐噪声、高斯白噪声等。
c)颜色变换。例如,在图像的RGB颜色空间上进行主成分分析,得到3个主成分的向量p1,p2,p3及其对应的特征值λ1,λ2,λ3,然后在每个像素的RGB值上添加增量[p1,p2,p3]*[α1λ1,α2λ2,α3λ3]T,其中α1,α2,α3是均值为0,方差较小的高斯分布随机数。
d)改变图像的亮度、清晰度、对比度、锐度等
e)先对图像进行特征提取,然后在图像的特征空间内进行变换,利用一些通用的数据扩充或上采样技术。例如SMOTE(Synthetic Minority Over-Sampling Technique)算法