参考我在另一个问题下的回答。为了克服多层神经网络中训练的问题,DL采用了很不同的训练机制。传统神经网络中,采用的是Backpropagatio
的方式进行,简单说来就是采用迭代的算法来训练整个网络,随机设定初值,计算当前网络的输出,然后根据当前网络输出与label之间的差值去改变前面各层的参数,直至收敛(整体上是一个梯度下降法)。而DL整体上是一个layerwise的训练机制。原因在于如果采用Backpropagatio
的机制,对于一个deep
etwork(7层以上),残差传播到最前面的层已经变得很小,会出现梯度扩散,影响精度。另外DL第一步也不是随机初始化!而是通过学习输入数据的结构得到的,因而这个初值更接近全局最优,从而能够获得更好的效果。总体说来,初值选取和训练机制等方面截然不同。
普通神经网络,层在多,也只是外设多一些,数据来源多一些,他的层数体现在数据与数据的关系网。而置信网络,他的层数体现在数据之上的抽象概率网。一个是数据,一个是概率,一个可以称之为形而下,一个可以称之为形而上。神经网络:过度学习,梯度扩散深度学习:卷积神经网络CNN,用于图像处理逐层初始化,无监督学习
fr