MATH-probability

http://www.math.wm.edu/~leemis/2008amstat.pdf 《Univariate Distribution Relationships》各种概率分布之间的关系

http://www.math.wm.edu/~leemis/chart/UDR/UDR.html 鼠标放上去会高亮关系

几何分布与负二项分布的关系

服从二项分布的随机变量取何值时概率最大

一张图说明二项分布、泊松分布、指数分布、几何分布、负二项分布、伽玛分布的联系

二项分布与泊松分布

泊松分布 (Poisson Distributions) 的推导

poisson 分布是二项分布的的一种极限，高斯分布也是一种二项分布的极限，那么他们之间？

当n逐渐趋于无穷时，二项分布B（n，p）是趋于正态分布还是泊松分布？

分布是泊松分布的“逆分布”。泊松分布是给定概率 $\lambda$ 和等待时间T，算在此时间内事件发生的次数k的分布；而Gamma则是反过来，给定概率 $\lambda$ 和发生次数k，算等待时间T的分布。很显然，T的平均值就是k/ $\lambda$ 。这样的Gamma分布写作：Gamma(k, $\lambda$ )

指数分布是泊松过程的事件间隔的分布。指数分布的 $\lambda$ 跟泊松分布中的 $\lambda$ 意义一样。

泊松过程的一些总结

大数定律与中心极限定理

大数定律说的是随机现象平均结果稳定性。

中心极限定理论证随机变量的和的极限分布是正态分布。

https://www.zhihu.com/question/22913867

最大似然估计MLE和最大后验概率MAP

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为，参数是客观存在的，只是未知而矣。因此，频率派最关心极大似然函数，只要参数求出来了，给定自变量X，Y也就固定了，极大似然估计如下所示:

\theta = \arg \max_{\theta} p(D|\theta) \\ \text{D表示训练数据集，}\theta\text{是模型参数}

相反的，贝叶斯派认为参数也是随机的，和一般随机变量没有本质区别，正是因为参数不能固定，当给定一个输入x后，我们不能用一个确定的y表示输出结果，必须用一个概率的方式表达出来，所以贝叶斯学派的预测值是一个期望值，如下所示：

E[y|x,D] = \int p(y|x,\theta)p(\theta|D)d\theta

该公式称为全贝叶斯预测。现在的问题是如何求 $p(\theta|D)$ （后验概率），根据贝叶斯公式我们有：

p(\theta|D) = \frac {p(D|\theta)p(\theta)}{p(D)} = \frac {p(D|\theta)p(\theta)}{\int p(D|\theta)p(\theta)d\theta}

可惜的是，上面的后验概率通常是很难计算的，因为要对所有的参数进行积分，不能找到一个典型的闭合解（解析解）。在这种情况下，我们采用了一种近似的方法求后验概率，这就是最大后验概率

\theta = \arg \max_{\theta} p(D|\theta)p(\theta)

最大后验概率和极大似然估计很像，只是多了一项先验分布，它体现了贝叶斯认为参数也是随机变量的观点，在实际运算中通常通过超参数给出先验分布。从以上可以看出，一方面，极大似然估计和最大后验概率都是参数的点估计。在频率学派中，参数固定了，预测值也就固定了。最大后验概率是贝叶斯学派的一种近似手段，因为完全贝叶斯估计不一定可行。另一方面，最大后验概率可以看作是对先验和MLE的一种折衷，如果数据量足够大，最大后验概率和最大似然估计趋向于一致，如果数据为0,最大后验仅由先验决定。最大似然估计和最大后验概率