激励函数
Last updated
Last updated
插入一个细节,神经网络中,激活函数的输入一般都是一个向量。所以求导时是一种按位运算。这种运算叫做Hadamard积。
据说这个目前效果比较好。 深度学习(二十三)Maxout网络学习-ICML 2013
单侧抑制
相对宽阔的兴奋边界
稀疏激活性(重点,可以看到红框里前端状态完全没有激活)
线性。
最早的想法是sigmoid函数或者tanh函数,输出有界,很容易充当下一层输入等。后采用ReLU较多 原因:
采用sigmoid等函数,反向传播求误差梯度时,求导计算量很大,而Relu求导非常容易。
对于深层网络,sigmoid函数反向传播时,很容易就会出现梯度消失的情况(在sigmoid接近饱和区时,变换太缓慢,导数趋于0),从而无法完成深层网络的训练。经过每一层时,Error都是成倍的衰减,一旦进行递推式的多层的反向传播,梯度就会不停的衰减,消失,使得网络学习变慢。
Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生(这个符合生物学的解释)。
Machine Learning中的颠覆性研究是稀疏特征,基于数据的稀疏特征研究上,派生了Deep Learning这一分支。 总结起来稀疏性大概有以下贡献:
当前,深度学习一个明确的目标是从数据变量中解离出关键因子。原始数据(以自然数据为主)中通常缠绕着高度密集的特征。 原因是这些特征向量是相互关联的,一个小小的关键因子可能牵扰着一堆特征,有点像蝴蝶效应,牵一发而动全身。 基于数学原理的传统机器学习手段在解离这些关联特征方面具有致命弱点。 然而,如果能够解开特征间缠绕的复杂关系,转换为稀疏特征,那么特征就有了鲁棒性(去掉了无关的噪声)。
稀疏特征有更大可能线性可分,或者对非线性映射机制有更小的依赖。因为稀疏特征处于高维的特征空间上(被自动映射了) 从流形学习观点来看(参见降噪自动编码器),稀疏特征被移到了一个较为纯净的低维流形面上。 线性可分性亦可参照天然稀疏的文本型数据,即便没有隐层结构,仍然可以被分离的很好。
稠密缠绕分布着的特征是信息最富集的特征,从潜在性角度,往往比局部少数点携带的特征成倍的有效。 而稀疏特征,正是从稠密缠绕区解离出来的,潜在价值巨大。
不同的输入可能包含着大小不同关键特征,使用大小可变的数据结构去做容器,则更加灵活。 假如神经元激活具有稀疏性,那么不同激活路径上:不同数量(选择性不激活)、不同功能(分布式激活), 两种可优化的结构生成的激活路径,可以更好地从有效的数据的维度上,学习到相对稀疏的特征,起到自动化解离效果。
就是将激活函数的输入,修正成均值为0,方差为1的正太分布,这样的输入,激活函数变化剧烈,反向传播的导数也不会太小。
但是为了特殊性,再进行 ,然后作为激活函数的输入
神经网络-激活函数-面面观(Activation Function) maxout简单理解 Network In Network(精读)
UFLDL教程 ReLu(Rectified Linear Units)激活函数 DL中的坑
[https://zhuanlan.zhihu.com/p/24810318](https://zhuanlan.zhihu.com/p/24810318 "什么是批标准化 (Batch Normalization)") 什么是批标准化 (Batch Normalization)
传统神经网络中最常用的两个激活函数:Logistic-Sigmoid、Tanh-Sigmoid。
这个模型对比Sigmoid系主要变化有三点: