# MATH-probability

[概率和统计可视化](http://students.brown.edu/seeing-theory/)

[测度论观点下的初等概率论与随机过程](https://zhuanlan.zhihu.com/p/23670513)

[基本概率知识汇总表](http://www.wzchen.com/probability-cheatsheet/)

## [stat-cookbook](https://github.com/mavam/stat-cookbook)

<http://www.math.wm.edu/~leemis/2008amstat.pdf> 《Univariate Distribution Relationships》 各种概率分布之间的关系

<http://www.math.wm.edu/~leemis/chart/UDR/UDR.html> 鼠标放上去会高亮关系

![](https://2270971654-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-M7DcNFhVrwIk3Tks_pB%2Fsync%2Fa92d05010defaff28434d2b980463d2ee85af6da.png?generation=1589383923252933\&alt=media)

[几何分布与负二项分布的关系](https://zhuanlan.zhihu.com/p/36509882)

![](https://2270971654-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-M7DcNFhVrwIk3Tks_pB%2Fsync%2F83ad5cd8223d3383ba8d070c0fb99c242bfe1ed8.png?generation=1589383922824532\&alt=media)

[服从二项分布的随机变量取何值时概率最大](https://zhuanlan.zhihu.com/p/36780313)

![](https://2270971654-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-M7DcNFhVrwIk3Tks_pB%2Fsync%2Fac400fb7f23303fe8240b2bb7135fbfdff571f1a.png?generation=1589383922398364\&alt=media)

[一张图说明二项分布、泊松分布、指数分布、几何分布、负二项分布、伽玛分布的联系](https://zhuanlan.zhihu.com/p/32932782)

![](https://2270971654-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-M7DcNFhVrwIk3Tks_pB%2Fsync%2Ff04263555c34e45b6468b26e14e441532596c76b.png?generation=1589383922647076\&alt=media)

[二项分布与泊松分布](https://zhuanlan.zhihu.com/p/26433704)

[泊松分布 (Poisson Distributions) 的推导](https://zhuanlan.zhihu.com/p/26263743)

poisson 分布是二项分布的的一种极限，高斯分布也是一种二项分布的极限，那么他们之间？

[当n逐渐趋于无穷时，二项分布B（n，p）是趋于正态分布还是泊松分布？](https://www.zhihu.com/question/52059264/answer/129556067)

分布是泊松分布的“逆分布”。泊松分布是给定概率$$\lambda$$和等待时间T，算在此时间内事件发生的次数k的分布；而Gamma则是反过来，给定概率$$\lambda$$和发生次数k，算等待时间T的分布。很显然，T的平均值就是k/$$\lambda$$ 。这样的Gamma分布写作：Gamma(k, $$\lambda$$)

指数分布是泊松过程的事件间隔的分布。指数分布的$$\lambda$$跟泊松分布中的$$\lambda$$意义一样。

![](https://2270971654-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-M7DcNFhVrwIk3Tks_pB%2Fsync%2F1bc9e531f143e3b8e6659b151388765c8bbfa0d3.png?generation=1589383923137399\&alt=media)

[泊松过程的一些总结](https://zhuanlan.zhihu.com/p/33141085)

### 大数定律与中心极限定理

大数定律说的是随机现象平均结果稳定性。

中心极限定理论证随机变量的和的极限分布是正态分布。

![](https://2270971654-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-M7DcNFhVrwIk3Tks_pB%2Fsync%2F8850eaab129dcf2decb7b7d2a76f587d3eae3d8c.png?generation=1589383923443437\&alt=media)<https://www.zhihu.com/question/22913867>

### 最大似然估计MLE和最大后验概率MAP

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为，参数是客观存在的，只是未知而矣。因此，频率派最关心极大似然函数，只要参数求出来了，给定自变量X，Y也就固定了，极大似然估计如下所示:

$$
\theta = \arg \max\_{\theta} p(D|\theta) \\
\text{D表示训练数据集，}\theta\text{是模型参数}
$$

相反的，贝叶斯派认为参数也是随机的，和一般随机变量没有本质区别，正是因为参数不能固定，当给定一个输入x后，我们不能用一个确定的y表示输出结果，必须用一个概率的方式表达出来，所以贝叶斯学派的预测值是一个期望值，如下所示：

$$
E\[y|x,D] = \int p(y|x,\theta)p(\theta|D)d\theta
$$

该公式称为全贝叶斯预测。现在的问题是如何求$$p(\theta|D)$$（后验概率），根据贝叶斯公式我们有：

$$
p(\theta|D) = \frac {p(D|\theta)p(\theta)}{p(D)}
\= \frac {p(D|\theta)p(\theta)}{\int p(D|\theta)p(\theta)d\theta}
$$

可惜的是，上面的后验概率通常是很难计算的，因为要对所有的参数进行积分，不能找到一个典型的闭合解（解析解）。在这种情况下，我们采用了一种近似的方法求后验概率，这就是最大后验概率

$$
\theta = \arg \max\_{\theta} p(D|\theta)p(\theta)
$$

最大后验概率和极大似然估计很像，只是多了一项先验分布，它体现了贝叶斯认为参数也是随机变量的观点，在实际运算中通常通过超参数给出先验分布。\
从以上可以看出，一方面，极大似然估计和最大后验概率都是参数的点估计。在频率学派中，参数固定了，预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段，因为完全贝叶斯估计不一定可行。另一方面，最大后验概率可以看作是对先验和MLE的一种折衷，如果数据量足够大，最大后验概率和最大似然估计趋向于一致，如果数据为0,最大后验仅由先验决定。\
[最大似然估计和最大后验概率](http://blog.csdn.net/lzt1983/article/details/10131839)

## 生成模型使用联合概率建模，判别模型直接使用条件概率建模

待深入

<https://wenku.baidu.com/view/29ca0de56bd97f192379e9c7.html> 概率论与数理统计公式整理(完整版)

[漫谈概率论](http://mp.weixin.qq.com/s?__biz=MjM5ODIzNDQ3Mw==\&mid=2649966659\&idx=1\&sn=ba9fb8d147273323c9ba03036875c8ef\&chksm=beca384589bdb15393890b4e77a9babf2e50f9951586fba6287ea2ce217e103de75acf23fe1e#rd) 此文要多看，多看，多看

[Statistical Rethinking统计反思](http://xcelab.net/rm/statistical-rethinking/) YouTube上有视频课程

[机器学习的数学基础-（三、概率论和数理统计）](https://zhuanlan.zhihu.com/p/36584335)\
[大数定律与中心极限定理](http://zhangjunhd.github.io/2014/01/27/law-of-large-numbers.html)\
[平均值和数学期望有多近](http://www.rustle.us/?p=286)\
[怎样理解和区分中心极限定理与大数定律？](https://www.zhihu.com/question/22913867)\
[强大数定律和弱大数定律的本质区别？](https://www.zhihu.com/question/21110761)

[如何理解指数分布的无记忆性？](https://www.zhihu.com/question/36965252/answer/143695500)

[从西格玛代数、测度空间到随机变量](http://blog.jasonding.top/2015/01/19/Machine%20Learning/%E3%80%90%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E6%95%B0%E5%AD%A6%E3%80%91%E4%BB%8E%E8%A5%BF%E6%A0%BC%E7%8E%9B%E4%BB%A3%E6%95%B0%E3%80%81%E6%B5%8B%E5%BA%A6%E7%A9%BA%E9%97%B4%E5%88%B0%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F/)

[Fundamental Principles of Statistics 统计学基本原则](http://www.fharrell.com/2017/01/fundamental-principles-of-statistics.html)

Probabilistic Models of ，Cognition

[The Algorithms Behind Probabilistic Programming](http://blog.fastforwardlabs.com/2017/01/30/the-algorithms-behind-probabilistic-programming.html)

[泊松分布的现实意义是什么，为什么现实生活多数服从于泊松分布？](https://www.zhihu.com/question/26441147)

[二项分布与泊松分布](https://zhuanlan.zhihu.com/p/26433704)

[想了解概率图模型？你要先理解图论的基本定义与形式](https://zhuanlan.zhihu.com/p/26133450)

[正态分布随机变量的和还是正态分布](https://www.zhihu.com/question/26055805) 用卷积得到

[统计知识思维导图](https://zhuanlan.zhihu.com/p/25884239)

[The probability and statistics cookbook](https://github.com/mavam/stat-cookbook) 重要

[掌握机器学习数学基础之概率统计](https://zhuanlan.zhihu.com/p/30314229)

[从贝叶斯定理到概率分布：综述概率论基本定义](https://mp.weixin.qq.com/s/qO-fratGj66wpQPMLASxFw)
