Machine Learning
  • Introduction
  • man
  • Linear model
    • Linear Regression
    • Generalized Linear Models
    • Nonlinear regression
  • bayes
    • bayesian network
    • Variational Bayesian inference
    • Gaussian Process Regression
  • Logistic Regression
    • L1 regularization
    • L2 regularization
    • softmax
    • Overflow and Underflow
  • SVM
    • C-SVM
    • C-SVM求解
  • EM
    • GMM
  • Maximum Entropy
    • IIS
  • HMM
    • viterbi algorithm
  • CRF
  • Random Forest
    • bagging
    • random forest
  • boosting
    • catboost
    • gradient boosting
    • Newton Boosting
    • online boosting
    • gcForest
    • Mixture models
    • XGBoost
    • lightGBM
    • SecureBoost
  • LDA
  • rank
    • RankNet
    • LambdaRank
    • SimRank
  • Factorization Machine
    • Field-aware Factorization Machine
    • xdeepFM
  • Clustering
    • BIRCH
    • Deep Embedding Clustering
  • Kalman filtering
  • word2vec
  • 关联规则挖掘
  • MATH-Mathematical Analysis
    • measure
  • MATH-probability
    • Variational Inference
    • Dirichlet分布
    • Gibbs Sampling
    • Maximum entropy probability distribution
    • Conjugate prior
    • Gaussian Process
    • Markov process
    • Poisson process
    • measure
    • Gumbel
  • MATH-Linear Algebra
    • SVD
    • SVD-推荐
    • PCA
    • Linear Discriminant Analysis
    • Nonnegative Matrix Factorization
  • MATH-Convex optimization
    • 梯度下降
    • 随机梯度下降
    • 牛顿法
    • L-BFGS
    • 最速下降法
    • 坐标下降法
    • OWL-QN
    • 对偶问题
    • 障碍函数法
    • 原对偶内点法
    • ISTA
    • ADMM
    • SAG
  • MATH-碎碎念
    • cost function
    • Learning Theory
    • sampling
    • Entropy
    • variational inference
    • basis function
    • Diffie–Hellman key exchange
    • wavelet transform
    • 图
    • Portfolio
    • 凯利公式
  • ML碎碎念
    • 特征
    • test
    • TF-IDF
    • population stability index
    • Shapley Values
  • 课件
    • xgboost算法演进
  • Time Series
  • PID
  • graph
    • SimRank
    • community detection
    • FRAUDAR
    • Anti-Trust Rank
    • Struc2Vec
    • graph theory
    • GNN
  • Anomaly Detection
    • Isolation Forest
    • Time Series
  • Dimensionality Reduction
    • Deep Embedded Clustering
  • Federated Learning
  • automl
  • Look-alike
  • KNN
  • causal inference
Powered by GitBook
On this page
  • stat-cookbook
  • 大数定律与中心极限定理
  • 最大似然估计MLE和最大后验概率MAP
  • 生成模型使用联合概率建模,判别模型直接使用条件概率建模

Was this helpful?

MATH-probability

PreviousmeasureNextVariational Inference

Last updated 5 years ago

Was this helpful?

《Univariate Distribution Relationships》 各种概率分布之间的关系

鼠标放上去会高亮关系

poisson 分布是二项分布的的一种极限,高斯分布也是一种二项分布的极限,那么他们之间?

大数定律与中心极限定理

大数定律说的是随机现象平均结果稳定性。

中心极限定理论证随机变量的和的极限分布是正态分布。

最大似然估计MLE和最大后验概率MAP

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示:

相反的,贝叶斯派认为参数也是随机的,和一般随机变量没有本质区别,正是因为参数不能固定,当给定一个输入x后,我们不能用一个确定的y表示输出结果,必须用一个概率的方式表达出来,所以贝叶斯学派的预测值是一个期望值,如下所示:

可惜的是,上面的后验概率通常是很难计算的,因为要对所有的参数进行积分,不能找到一个典型的闭合解(解析解)。在这种情况下,我们采用了一种近似的方法求后验概率,这就是最大后验概率

生成模型使用联合概率建模,判别模型直接使用条件概率建模

待深入

Probabilistic Models of ,Cognition

分布是泊松分布的“逆分布”。泊松分布是给定概率λ\lambdaλ和等待时间T,算在此时间内事件发生的次数k的分布;而Gamma则是反过来,给定概率λ\lambdaλ和发生次数k,算等待时间T的分布。很显然,T的平均值就是k/λ\lambdaλ 。这样的Gamma分布写作:Gamma(k, λ\lambdaλ)

指数分布是泊松过程的事件间隔的分布。指数分布的λ\lambdaλ跟泊松分布中的λ\lambdaλ意义一样。

θ=arg⁡max⁡θp(D∣θ)D表示训练数据集,θ是模型参数\theta = \arg \max_{\theta} p(D|\theta) \\ \text{D表示训练数据集,}\theta\text{是模型参数}θ=argθmax​p(D∣θ)D表示训练数据集,θ是模型参数
E[y∣x,D]=∫p(y∣x,θ)p(θ∣D)dθE[y|x,D] = \int p(y|x,\theta)p(\theta|D)d\thetaE[y∣x,D]=∫p(y∣x,θ)p(θ∣D)dθ

该公式称为全贝叶斯预测。现在的问题是如何求p(θ∣D)p(\theta|D)p(θ∣D)(后验概率),根据贝叶斯公式我们有:

p(θ∣D)=p(D∣θ)p(θ)p(D)=p(D∣θ)p(θ)∫p(D∣θ)p(θ)dθp(\theta|D) = \frac {p(D|\theta)p(\theta)}{p(D)} = \frac {p(D|\theta)p(\theta)}{\int p(D|\theta)p(\theta)d\theta}p(θ∣D)=p(D)p(D∣θ)p(θ)​=∫p(D∣θ)p(θ)dθp(D∣θ)p(θ)​
θ=arg⁡max⁡θp(D∣θ)p(θ)\theta = \arg \max_{\theta} p(D|\theta)p(\theta)θ=argθmax​p(D∣θ)p(θ)

最大后验概率和极大似然估计很像,只是多了一项先验分布,它体现了贝叶斯认为参数也是随机变量的观点,在实际运算中通常通过超参数给出先验分布。 从以上可以看出,一方面,极大似然估计和最大后验概率都是参数的点估计。在频率学派中,参数固定了,预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段,因为完全贝叶斯估计不一定可行。另一方面,最大后验概率可以看作是对先验和MLE的一种折衷,如果数据量足够大,最大后验概率和最大似然估计趋向于一致,如果数据为0,最大后验仅由先验决定。

概率论与数理统计公式整理(完整版)

此文要多看,多看,多看

YouTube上有视频课程

用卷积得到

重要

几何分布与负二项分布的关系
服从二项分布的随机变量取何值时概率最大
一张图说明二项分布、泊松分布、指数分布、几何分布、负二项分布、伽玛分布的联系
二项分布与泊松分布
泊松分布 (Poisson Distributions) 的推导
当n逐渐趋于无穷时,二项分布B(n,p)是趋于正态分布还是泊松分布?
泊松过程的一些总结
最大似然估计和最大后验概率
https://wenku.baidu.com/view/29ca0de56bd97f192379e9c7.html
漫谈概率论
Statistical Rethinking统计反思
机器学习的数学基础-(三、概率论和数理统计)
大数定律与中心极限定理
平均值和数学期望有多近
怎样理解和区分中心极限定理与大数定律?
强大数定律和弱大数定律的本质区别?
如何理解指数分布的无记忆性?
从西格玛代数、测度空间到随机变量
Fundamental Principles of Statistics 统计学基本原则
The Algorithms Behind Probabilistic Programming
泊松分布的现实意义是什么,为什么现实生活多数服从于泊松分布?
二项分布与泊松分布
想了解概率图模型?你要先理解图论的基本定义与形式
正态分布随机变量的和还是正态分布
统计知识思维导图
The probability and statistics cookbook
掌握机器学习数学基础之概率统计
从贝叶斯定理到概率分布:综述概率论基本定义
概率和统计可视化
测度论观点下的初等概率论与随机过程
基本概率知识汇总表
stat-cookbook
http://www.math.wm.edu/~leemis/2008amstat.pdf
http://www.math.wm.edu/~leemis/chart/UDR/UDR.html
https://www.zhihu.com/question/22913867