《深度学习入门:基于Python的理论与实现》第四章代码原理详细解析

这一章的代码解读的难点是：
涉及到两个函数的求导问题。

①sigmoid函数的求导:
$\frac{\partial y_j}{\partial x_j}=y_j(1-y_j)$
出处是[2]

②softmax函数的求导：
$\frac{\partial E}{\partial z_i}=a_i-y_i$
出处是[1]

、------------------------------------------
第四章的整个神经网络的结构是：
输入层：784个节点（无激活函数）
隐藏层：50个节点（激活函数:sigmoid）
输出层：10个节点（激活函数:softmax）
下面的维度检查中的100，是因为一个batch_size=100
、------------------------------------------
代码变量与神经网络结构之间的具体对应关系：
输入x，
第一层输入a1,输出z1
第二层输入a2,输出y
、------------------------------------------
理论与神经网络结构之间的具体对应关系是：
输入x，
第一层输入x1,输出y1
第二层输入x2,输出y2

、------------------------------------------
According to [2]:
△ｗ
$=－\varepsilon\frac{\partial E}{\partial w}$ (8)

$=－\varepsilon\frac{\partial E}{\partial w_{ji}}$ (6)

$=－\varepsilon\frac{\partial E}{\partial x_j}·y_i$
$\approx －\varepsilon \frac{y-t}{batch\_num}·z1.T$ (代码中的变量)
$=－\varepsilon·grads['W2']$ (代码中的变量)

变量名称	对应的理论名称	变量维度
$a 1$	$x_1(隐藏层输入)$	(100,50)
$z 1$	$y_1(隐藏层输出)$	(100,50)
$a 2$	$x_2(输出层输入)$	(100,10)
$y$	$y_2(输出层输出)$	(100,10)
$d a 1$	$\frac{\partial E}{\partial x_2}·w_{21}$	(100,50)
$d z 1$	$\frac{\partial E}{\partial x_2}·\frac{\partial x_2}{\partial y_1}·\frac{\partial y_1}{\partial x_1}$ = $\frac{\partial E}{\partial x_2}·w_{21}·[y_1·(1-y_1)]$	(100,50)
$dy=\frac{y-t}{batch\_num}$	$\frac{\partial E}{\partial x_2}$ (这里的 $x_2$ 是一个矢量,整体表示100条数据对各个输出节点的误差贡献)	(100, 10)
$z 1 . T$	$y_i$	(50, 100)
$g r a d s [^{'} b 2^{'}]$	$\frac{\partial E}{\partial x_2}$	(10,)
$g r a d s [^{'} W 2^{'}]$	$\frac{\partial E}{\partial w_{21}}$	(50,10)
$g r a d s [^{'} W 1^{'}]$	$\frac{\partial E}{\partial x_2}·\frac{\partial x_2}{\partial y_1}·\frac{\partial y_1}{\partial x_1}·\frac{\partial x_1}{\partial w_{10}}=\frac{\partial E}{\partial x_2}·w_{21}·[y_1·(1-y_1)]·x$	(784,50)
$g r a d s [^{'} b 1^{'}]$	$\frac{\partial E}{\partial x_1}$	(50,)

关于上述表格中的 $“ y - t ”$ 的出处,可以参考[1]：

这里的 $g r a d s [^{'} b 2^{'}]$ 推导如下：
$\frac{\partial E}{\partial b_2}=\frac{\partial E}{\partial x_2}\frac{\partial x_2}{\partial b_2}=\frac{\partial E}{\partial x_2}\frac{\partial(w_{21}·y_1+b2)}{\partial b_2}=\frac{\partial E}{\partial x_2}$

$g r a d s [^{'} b 1^{'}]$ 推导推导同理。
--------------------------------------------

为什么在计算 $g r a d s [^{'} b 1^{'}]$ 和 $g r a d s [^{'} b 2^{'}]$ 时进行求和？
与后面的batch_num进行配套使用，获取该轮batch训练得到的 $b j$ 的平均值作为最终的模型参数
--------------------------------------------

关于这里batch_num出现在dy中不太好理解，其实我们可以看到batch_num最终进入了 $grads['b2']中，所以其含义是对100条数据产生的b_j的和取了一个平均，作为这轮batch训练后的得到的偏置b_j$

--------------------------------------------

注意:
softmax以及sigmoid的求导结果是不一样的.

参考：
[1]softmax with cross-entropy loss求导(转载＋细节整理)
[2]《learning representations by back-propagating errors》

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义