激励函数

插入一个细节，神经网络中，激活函数的输入一般都是一个向量。所以求导时是一种按位运算。这种运算叫做Hadamard积。 $a=f(z) \quad \frac {\partial J}{\partial z} = \frac {\partial J}{\partial a} \odot f^\prime(z)$

maxout

据说这个目前效果比较好。深度学习（二十三）Maxout网络学习-ICML 2013

sigmoid系

传统神经网络中最常用的两个激活函数：Logistic-Sigmoid、Tanh-Sigmoid。 sigmoid

sigmoid函数

f(z) = \frac {1}{1 + exp(-z)}

双曲正切函数（tanh）

f(z) = tanh(z) = \frac {e^z - e^{-z}}{e^z + e^{-z}}

近似生物神经激活函数：Softplus&ReLu ）

这个模型对比Sigmoid系主要变化有三点：

单侧抑制
相对宽阔的兴奋边界
稀疏激活性（重点，可以看到红框里前端状态完全没有激活）

Softplus

f(z) = \log(1+\exp(z))

ReLU（Rectified Linear Units）

线性。

y = max(W^T x,0)

Leaky ReLU

Randomized ReLU

SELU

自归一化神经网络」提出新型激活函数SELU

最早的想法是sigmoid函数或者tanh函数，输出有界，很容易充当下一层输入等。后采用ReLU较多原因：

采用sigmoid等函数，反向传播求误差梯度时，求导计算量很大，而Relu求导非常容易。
对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0），从而无法完成深层网络的训练。经过每一层时，Error都是成倍的衰减，一旦进行递推式的多层的反向传播，梯度就会不停的衰减，消失，使得网络学习变慢。
Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生(这个符合生物学的解释)。

关于稀疏性的观点

Machine Learning中的颠覆性研究是稀疏特征，基于数据的稀疏特征研究上，派生了Deep Learning这一分支。总结起来稀疏性大概有以下贡献：

信息解离

当前，深度学习一个明确的目标是从数据变量中解离出关键因子。原始数据（以自然数据为主）中通常缠绕着高度密集的特征。原因是这些特征向量是相互关联的，一个小小的关键因子可能牵扰着一堆特征，有点像蝴蝶效应，牵一发而动全身。基于数学原理的传统机器学习手段在解离这些关联特征方面具有致命弱点。然而，如果能够解开特征间缠绕的复杂关系，转换为稀疏特征，那么特征就有了鲁棒性（去掉了无关的噪声）。