GMM
Last updated
Was this helpful?
Last updated
Was this helpful?
分布概率密度函数PDF定义如下:
分布概率密度函数PDF定义如下:
注:各类均值,各类协方差矩阵,D是维度
注意得满足下面3个条件,才等价于N维随机向量服从多维正太分布
任何线性组合服从正太分布
存在随机
参考wiki
几何理解: 二维的SGM在平面上近似椭圆形,在三维空间中近似椭球体。
由K个 Gaussian Model(多维)线性组合在一起就是GMM的概率密度函数:
所有样本所属分类已知,则跟EM算法没有关系。但是部分样本已知分类,如何半监督的学习,或者初始化EM的参数?
对整体数据求对数极大似然:
初始化参数:初始化每个Gaussian Models 都是标准正太分布。
M步:对期望的下限最大化,计算新一轮迭代的模型参数。
高斯混合模型和期望最大化算法 (此文甚是清晰准确) 期望最大化算法
这样应该是有问题的。后来看到徐亦达老师的课件中是这么定义的:
设样本容量为N,属于第K个分类的样本数量为,则
E步:依据当前模型的参数,计算分模型k对观测数据的相应度。 或者说每个样本由第k个component生成的概率,即类别k在给定的x下的条件概率,利用bayesian公式得:
注意:在算时,假定均已知,是上一轮迭代出的参数。
注意:此时已知,也就是知道了每个样本由那个component生成,此时求模型参数,使似然函数最大化。
分别求偏导数,然后等于0就可以了
不能直接求偏导数,因为有的约束,可以构造拉格朗日函数求解
求解过程: 对求导,固定
对求导,固定