GMM
一维单高斯模型SGM###
分布概率密度函数PDF定义如下:
多维单高斯模型SGM###
分布概率密度函数PDF定义如下:
注:各类均值,各类协方差矩阵,D是维度
注意得满足下面3个条件,才等价于N维随机向量服从多维正太分布
任何线性组合服从正太分布
存在随机
参考wiki
几何理解: 二维的SGM在平面上近似椭圆形,在三维空间中近似椭球体。
混合高斯模型###
由K个 Gaussian Model(多维)线性组合在一起就是GMM的概率密度函数:
求解
每个样本所属分类已知####
设样本容量为N,属于第K个分类的样本数量为,则
所有样本所属分类已知,则跟EM算法没有关系。但是部分样本已知分类,如何半监督的学习,或者初始化EM的参数?
样本分类数未知####
对整体数据求对数极大似然:
初始化参数:初始化每个Gaussian Models 都是标准正太分布。
E步:依据当前模型的参数,计算分模型k对观测数据的相应度。 或者说每个样本由第k个component生成的概率,即类别k在给定的x下的条件概率,利用bayesian公式得:
注意:在算时,假定均已知,是上一轮迭代出的参数。
M步:对期望的下限最大化,计算新一轮迭代的模型参数。
注意:此时已知,也就是知道了每个样本由那个component生成,此时求模型参数,使似然函数最大化。
分别求偏导数,然后等于0就可以了
不能直接求偏导数,因为有的约束,可以构造拉格朗日函数求解
求解过程: 对求导,固定
对求导,固定
半监督学习###
并行学习###
参考佳文####
高斯混合模型和期望最大化算法 (此文甚是清晰准确) 期望最大化算法
Last updated