统计学习（九）：神经网络_综合

文章目录

神经网络
- 感知器
- - 用感知器分类
  - 一维的总结
  - 多类分类
- 训练感知器
- - 回归
  - K类
- 布尔函数
- - AND
  - XOR
- 多层感知器
- - 回归
  - 分类
  - K类
  - 多个隐藏层

神经网络

感知器

$f(x)=\sum_{j=0}^pw_jx_j=\sum_{j=1}^pw_jx_j+w_0=\boldsymbol w^T\boldsymbol x$

用感知器分类

$f(x)=s(\sum_{j=1}^pw_jx_j+w_0)=s(\boldsymbol w^T\boldsymbol x)$

$s$ 是一个阈值函数。分类： $f (x) > 0$ 或 $f (x) < 0$ 。

如果不是简单的决定正负（+、-），那么可以构造：
$f(x)=\sigma(\sum_{j=1}^pw_jx_j+w_0)=\sigma(\boldsymbol w^T\boldsymbol x)\\\sigma(u)=\frac{1}{1+\exp(-u)}$

一维的总结

回归：
$f(x)=\sum_{j=1}^pw_jx_j+w_0$
分类：
$f(x)=1/(1+\exp[-(\sum_{j=1}^pw_jx_j+w_0)])$

多类分类

选择 $C_k:f_k(x)=\max_{l\in\{1,\cdots,K\}}f_l(x)$ 。

为得到概率，使用 softmax：
$\sigma(u)=\frac{1}{1+e^{-u}}=\frac{e^u}{1+e^u}\\f_k(x)=\frac{\exp(o_k)}{\sum_{l=1}^K\exp(o_l)},o_k=\boldsymbol w^{kT}\boldsymbol x$
如果一个类的输出足够大于其他类，则其softmax将接近1（否则为0）。

训练感知器

随机梯度下降：从随机权重开始，在每个点，调整权重以最小化误差。

通用的Update rule：
$\Delta w_j=-\eta\frac{\partial Error(f(x^i),y^i)}{\partial w_j}$
在每个训练实例后，对于每个权重：
$w_i^{(t+1)}=w_j^{(t)}+\Delta w_i^{(t)}\\w_j\leftarrow w_j+\Delta w_j$

回归

$Error(f(x^i),y^i)=\frac{1}{2}(y^i-f(x^i))^2=\frac{1}{2}(y^i-\boldsymbol w^T\boldsymbol x^i)^2$

对于回归的Update rule为：
$\Delta w_j=\eta(y^i-f(x^i))x^i_j$
Sigmoid output:
$f(x^i)=\sigma(\boldsymbol w^T\boldsymbol x^i),\sigma(u)=\frac{1}{1+e^{-u}},\sigma'(u)=u'\sigma(u)(1-\sigma(u))$
Cross-entropy error:
$Error(f(x^i),y^i)=-y^i\log f(x^i)-(1-y^i)\log(1-f(x^i))$
$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xm8tZLAA-1622796911073)(C:\Users\meixuchen\AppData\Roaming\Typora\typora-user-images\image-20210604114520083.png)]$

K类

K>2的 softmax输出：
$f_k(x^i)=\frac{\exp(\boldsymbol w^{kT}\boldsymbol x^i)}{\sum_{l=1}^K\exp(\boldsymbol w^{lT}\boldsymbol x^i)}$
Cross-entropy error:
$Error(f(x^i),y^i)=-\sum_{k=1}^Ky_k^i\log f_k(x^i)$
Update rule
$\Delta w_j=\eta(y^i-f(x^i))x^i_j$

布尔函数

AND

在这里插入图片描述

$f(x)=s(w_0+w_1x_1+w_2x_2)$
理想的分界线：

在这里插入图片描述

XOR

在这里插入图片描述

$f(x)=s(w_0+w_1x_1+w_2x_2)\\w_0\leq0\\w_0+w_2>0\\w_0+w_1>0\\w_0+w_1+w_2\leq0$

多层感知器

隐藏层：

隐藏单元的输出：
$z_h=\frac{1}{1+e^{-\boldsymbol w_h^T\boldsymbol x}}$
神经网络输出：
$f(x)=\boldsymbol v^T\boldsymbol z=v_0+\sum_{h=1}^H\frac{v_h}{1+e^{-\boldsymbol w_h^T\boldsymbol x}}\\\frac{\partial E}{\partial w_{hj}}=\frac{\partial E}{\partial f(x)}\frac{\partial f(x)}{\partial z_h}\frac{\partial z_h}{\partial w_{hj}}\\\frac{\partial f(x)}{\partial z_h}\to v_h,\frac{\partial z_h}{\partial w_{hj}}\to z_h^i(1-z_h^i)x_j^i$

回归

$Error(f(x^i),y^i)=\frac{1}{2}(y^i-f(x^i))^2\\f(x)=v_0+\sum_{h=1}^Hv_hz_h,z_h=\sigma(\boldsymbol w_h^T\boldsymbol x)\\\Delta v_h=\eta_1(y^i-f(x^i))z_h^i\\\Delta w_{hj}=-\eta\frac{\partial E^i}{\partial w_{hj}}=-\eta\frac{\partial E^i}{\partial f(x^i)}\frac{\partial f(x^i)}{\partial z_h^i}\frac{\partial z_h^i}{\partial w_{hj}}\\=-\eta-(y^i-f(x^i))v_hz_h^i(1-z_h^i)x_j^i$

初始化所有的 $v_h,w_{hj}$ 到 $(? 0.01, 0.01)$ 的随机数，重复，直到收敛：
$for\ i=1,\cdots,n\\for\ h=1,\cdots,H\\z_h^i=\sigma(\boldsymbol w_h^T\boldsymbol x^i)\\f(x^i)=\boldsymbol v^T\boldsymbol z^i\\for\ h=1,\cdots,H\\\Delta v_h=\eta_1(y^i-f(x^i))z_h^i\\for\ h=1,\cdots,H\\for\ j=1,\cdots,p\\\Delta w_{hj}=\eta(y_k^i-f_k(x^i))v_hz_h^i(1-z_h^i)x_j^i\\for\ h=1,\cdots,H\\v_h\leftarrow v_h+\Delta v_h\\for\ j=1,\cdots,p\\w_{hj}\leftarrow w_{hj}+\Delta w_{hj}$

分类

$z_h=\sigma(\boldsymbol w_h^T\boldsymbol x)\\f(x)=\sigma(v_0+\sum_{h=1}^Hv_hz_h)\\error=-\sum_{i=1}^ny^i\log(f(x^i))+(1-y^i)\log(1-f(x^i))\\\Delta v_h=\eta_1\sum_{i=1}^n(y^i-f(x^i))z_h^i\\\Delta w_{hj}=\eta\sum_{i=1}^n(y^i-f(x^i))v_hz_h^i(1-z_h^i)x_j^i$

K类

$o_k^i=v_{k0}+\sum_{h=1}^Hv_{kh}z_h^i\\f_k(x)=\frac{\exp(o_k^i)}{\sum_{l=1}^K\exp(o_l^i)}\\error=-\sum_{i=1}^n\sum_{k=1}^Ky_k^i\log(f_k(x^i))\\\Delta v_{kh}=\eta_1\sum_{i=1}^n(y_k^i-f_k(x^i))z_h^i\\\Delta w_{hj}=\eta\sum_{i=1}^n(\sum_{k=1}^K(y_k^i-f_k(x^i))v_{kh})z_h^i(1-z_h^i)x_j^i$

多个隐藏层

$f(x)=v_0+\sum_{l=1}^{H_2}v_lz_{2l}\\z_{2l}=\sigma(\boldsymbol w_{2l}^T\boldsymbol z_1)=\sigma(w_{2l0}+\sum_{h=1}^{H_1}w_{2lh}z_{1h})\\z_{1h}=\sigma(\boldsymbol w_{1h}^T\boldsymbol x)=\sigma(w_{1h0}+\sum_{j=1}^pw_{1hj}x_j)\\f(x)=v_0+\sum_{l=1}^{H_2}v_l·\sigma(w_{2l0}+\sum_{h=1}^{H_1}w_{2lh}·\sigma(w_{1h0}+\sum_{j=1}^pw_{1hj}x_j))$