Last updated 4 years ago
Was this helpful?
∂L∂wj=\frac {\partial L} {\partial w_j} =∂wj∂L=
一般激活函数是tanh或其他sigmoid函数, 若输出值在两端很平缓的部分,反向求导时导数非常小,使得weights的更新量很小,导致很难训练。所以尽量让sigmoid的输出在中间陡峭的地方。 之前看到的神经网络都是用tanh+最后一种。