当前位置: 代码迷 >> 综合 >> Reinforcement Learning(一):introduction
  详细解决方案

Reinforcement Learning(一):introduction

热度:70   发布时间:2023-12-12 01:06:55.0

A little bit probability theory

Random Variable

随机变量:未知;它的值取决于随机事件的结果。用大写字母表示随机变量,观察值用小写字母表示,注意,观察值是没有随机性的。

Probability Density Function (PDF)

PDF提供了随机变量的值与样本相等的相对可能性,比如下图的高斯分布以及离散分布:

满足以下性质:

Expectation


Terminologies 

以马里奥游戏为例子说明。

state and action

  • agent:智能体
  • state:当前状态
  • action:agent采取的行动

policy

是概率密度函数,是给定当前状态s下,采取行动a的概率。

reward

state transition

状态转移函数通常是未知的,由环境决定。

 agent environment interaction


 Randomness in Reinforcement Learning

Actions have randomness

State transitions have randomness


 Play the game using AI


 Rewards and Returns

Return

因此引入折扣回报:

 Randomness in Returns


Value Functions

Action-Value FunctionQ(s,a)

State-Value Function V(s)

Understanding the Value Functions 


Play games using reinforcement learning

How does AI control the agent?

两种方法:


OpenAI Gym

gym是一个开发和比较强化学习算法的工具包。https://gym.openai.com/

 


Summary


We are going to study…