当前位置: 代码迷 >> 综合 >> 关于深度学习的几个问题
  详细解决方案

关于深度学习的几个问题

热度:68   发布时间:2023-09-30 01:31:12.0

机器学习:
监督学习:有数据有标签的
非监督学习:只有数据,没有标签。
半监督学习:用少量有标签样本和大量没标签样本
强化学习:从经验中总结提升
遗传算法:适者生存,不适者淘汰。

神经网络
卷积神经网络NN
循环神经网络RNN,
LSTM 长短期记忆,最流行的RNN技术之一。
自编码autoencoding:神经网络的非监督学习。
GAN生成对抗网络:

怎么检验神经网络:
数据分为训练数据和测试数据,7:3
误差曲线


交叉验证判断最优参数

为什么要特征标准化:特征数据标准化,归一化
误差=预测-真实

怎么区分好用的特征:
判断特征对于结果的影响程度。

为什么需要激励函数:sigmon,relu,tah,
线性方程:y=wx
非线性方程:y=AF(wx)
卷积神经网络用:relu
循环神经网络:relu,tah

什么是过拟合:
过拟合中w往往比较大,可以通过L1/L2正规化来解决,让学出来的曲线不过拟合。

加速神经网络训练:
1.数据拆分,SGD
2.w+=-learning rate *dx
3.AdaGrad:
4.RMSProp
5.Adam

处理不均衡数据:
1.想办法获取更多的数据
2.换评判方式。
Confusion Matrix
precision&recall
F1score(pr&score)
3.重组数据
复制合成,让数据差不多
看到多的一边的数据,让分类数据差不多
4,使用其他机器学习方法,比如决策树,不受数据影响
5,修改算法

为什么要批标准化:
只有统一规格的数据才能让计算机学的更好,
batch normalization:

L1/L2正规化:
每个参数的平凡,L2,
每个参数的绝对值,L1,L1的解不稳定


什么是强化学习:
开始无数据无标签
从错误中学习找到规律,获取数据地标签,是计算机不断地自己学。


强化学习汇总:


不理解环境Model-Free RL:
Q-learning
policy gradients
Saras

理解环境Model-Based RL:
Q-learning
policy gradients
Saras

基于概率 policy-Based RL:
policy gradients
基于价值value-Based RL:
Q-learning
Saras
基于这两种产生地Actor-Critic方法,

回合更新:
基础班policy gradients
单步更新:
Q-learning
升级版policy gradients
Saras

在线学习on-policy:
Saras
离线学习off-policy:
Q-Learning:
Deep Q Network


什么是Q-Learning:
也是一个决策过程。
根据Q表
差距=现实-估计
新Q=老Q+差距

什么是sarsa:
与Q-learning类似,但是saras的更新方式不同。
saras是在现学现,q-learning是离线学习。
saras(lamda)方法,

什么是DQN(Deep Q Network)
Q现实
Q估计
新NN=老NN+α(Q现实-Q估计)

什么是Policy Gradients(强化学习):

什么是Actor Critic演员评论家:Policy Gradients+value-Based 
涉及两个神经网络:
Actor Critic+DQN=Deep Determinstic Policy Gradient(DDPG)

什么是DDPG(强化学习):
吸收单步更新的精华
Deep Determinstic Policy Gradient=deep+Determinstic Policy Gradient

Determinstic Policy Gradient=Determinstic+Policy Gradient
DDPG也是基于Policy Gradients和value-Based 神经网络,Policy Gradients这边又动作估计网络和动作现实网络,value-Based这比那有状态心是网络和状态估计网络

什么是A3C强化学习:基于Actor Critic,综合考量。
A3C可以让神经网络在不同的计算机核上运行,提高运算效率,一般的神经网络只在一个核上运行。