关于深度学习的几个问题_综合

机器学习：
监督学习：有数据有标签的
非监督学习：只有数据，没有标签。
半监督学习：用少量有标签样本和大量没标签样本
强化学习：从经验中总结提升
遗传算法：适者生存，不适者淘汰。

神经网络
卷积神经网络NN
循环神经网络RNN，
LSTM 长短期记忆，最流行的RNN技术之一。
自编码autoencoding：神经网络的非监督学习。
GAN生成对抗网络：

怎么检验神经网络：
数据分为训练数据和测试数据，7：3
误差曲线

交叉验证判断最优参数

为什么要特征标准化：特征数据标准化，归一化
误差=预测-真实

怎么区分好用的特征：
判断特征对于结果的影响程度。

为什么需要激励函数：sigmon,relu,tah,
线性方程：y=wx
非线性方程：y=AF(wx)
卷积神经网络用：relu
循环神经网络：relu，tah

什么是过拟合：
过拟合中w往往比较大，可以通过L1/L2正规化来解决，让学出来的曲线不过拟合。

加速神经网络训练：
1.数据拆分，SGD
2.w+=-learning rate *dx
3.AdaGrad:
4.RMSProp
5.Adam

处理不均衡数据：
1.想办法获取更多的数据
2.换评判方式。
Confusion Matrix
precision&recall
F1score（pr&score）
3.重组数据
复制合成，让数据差不多
看到多的一边的数据，让分类数据差不多
4,使用其他机器学习方法，比如决策树，不受数据影响
5，修改算法

为什么要批标准化：
只有统一规格的数据才能让计算机学的更好，
batch normalization：

L1/L2正规化：
每个参数的平凡，L2，
每个参数的绝对值，L1，L1的解不稳定

什么是强化学习：
开始无数据无标签
从错误中学习找到规律，获取数据地标签，是计算机不断地自己学。

强化学习汇总：

不理解环境Model-Free RL：
Q-learning
policy gradients
Saras

理解环境Model-Based RL：
Q-learning
policy gradients
Saras

基于概率 policy-Based RL：
policy gradients
基于价值value-Based RL：
Q-learning
Saras
基于这两种产生地Actor-Critic方法，

回合更新：
基础班policy gradients
单步更新：
Q-learning
升级版policy gradients
Saras

在线学习on-policy：
Saras
离线学习off-policy：
Q-Learning:
Deep Q Network

什么是Q-Learning:
也是一个决策过程。
根据Q表
差距=现实-估计
新Q=老Q+差距

什么是sarsa：
与Q-learning类似，但是saras的更新方式不同。
saras是在现学现，q-learning是离线学习。
saras（lamda）方法，

什么是DQN（Deep Q Network）
Q现实
Q估计
新NN=老NN+α（Q现实-Q估计）

什么是Policy Gradients（强化学习）：

什么是Actor Critic演员评论家：Policy Gradients+value-Based
涉及两个神经网络：
Actor Critic+DQN=Deep Determinstic Policy Gradient(DDPG)

什么是DDPG(强化学习)：
吸收单步更新的精华
Deep Determinstic Policy Gradient=deep+Determinstic Policy Gradient

Determinstic Policy Gradient=Determinstic+Policy Gradient
DDPG也是基于Policy Gradients和value-Based 神经网络，Policy Gradients这边又动作估计网络和动作现实网络，value-Based这比那有状态心是网络和状态估计网络

什么是A3C强化学习:基于Actor Critic，综合考量。
A3C可以让神经网络在不同的计算机核上运行，提高运算效率，一般的神经网络只在一个核上运行。