Reinforcement learning

Overview

$S$ : observation, $a$ : action, $\theta$ : parameter, $G$ : cumulated reward, $\pi$ : policy(network), $r$ : reward

$\tau$ : trajectory, $A^{\theta}(s_t, a_t)$ : advantage function

$\tau = \{s_1, a_1, s_2, a_2, …, s_T, a_T\}$

$p_{\theta}(\tau) = p(s_1) \Pi p_{\theta}(a_t|s_t)p(s_{t+1}|s_t, a_t)$

$R(\tau) = \sum_{t=1}^Tr_t$ (random)

$\bar R_{\theta} = \sum_{\tau} R(\tau)p_{\theta}(\tau)$ (Expected Reward) cannot calculate → sampling

Reward delay: sacrifice immediate reward to gain long-term reward

Cumulated reward
Cumulated reward(based on distance)
$G = \sum \gamma^{n-t} r_n$ ( $\gamma < 1$ )

Policy gradient
$\nabla \bar R_{\theta} = \sum_{\tau} R(\tau) \nabla p_{\theta}(\tau)$ $\nabla f(x) = f(x) \nabla \log f(x)$
$\nabla \bar R_{\theta} = \sum_{\tau} R(\tau) p_{\theta}(\tau) \dfrac{\nabla p_{\theta}(\tau)}{p_{\theta}(\tau)}$
$\nabla \bar R_{\theta} = \sum_{\tau} R(\tau) p_{\theta}(\tau) \nabla \log p_{\theta}(\tau)$
$\nabla \bar R_{\theta} = \dfrac{1}{N}\sum_{n}^N\sum_{t}^{T_n} R(\tau) p_{\theta}(\tau^n) \nabla \log p_{\theta}(a_t^n|s_t^n)$
$\theta^1 = \theta^0 + \eta \nabla \bar R_{\theta}$
Add baseline to avoid always positive
$\nabla \bar R_{\theta} = \dfrac{1}{N}\sum_{n}^N\sum_{t}^{T_n} (R(\tau) - b) p_{\theta}(\tau^n) \nabla \log p_{\theta}(a_t^n|s_t^n)$
Assign suitable credit
$R(\tau^n) = \sum_{t^\prime}^{T_n} \gamma^{t^{\prime}-t}r_{t^\prime}^n$ discount factor $\gamma < 1$ , futher the smaller impact
- On-policy: an actor for training & interacting is the same
- Off-policy: an actor for training & interacting is different
- Proximal policy optimization(PPO)
Exploration: the actor needs randomness during data collection

Actor-critic
Value function $V^{\theta}(s)$ :
- Monte-Carlo based approach(MC)
- Temporal-difference approach(TD)
  ⋯ $𝑠_𝑡,𝑎_𝑡,𝑟_𝑡,𝑠_{𝑡+1}$ ⋯
  $𝑉^𝜃 (𝑠_𝑡)=𝑟_𝑡+𝛾𝑟_{𝑡+1}+𝛾^2 𝑟_{𝑡+2}…$
  $𝑉^𝜃 (𝑠_{𝑡+1})=𝑟_{𝑡+1}+𝛾𝑟_{𝑡+2}+…$
  $𝑉^𝜃 (𝑠_𝑡 )=𝛾𝑉^𝜃 (𝑠_{𝑡+1})+𝑟_𝑡$
$A_t = G_t^\prime - V^{\theta}(s_t)$
$A_t = r_t +V^{\theta}(s_{t+1}) - V^{\theta}(s_t)$ $= Q^{\pi \theta} (s_t, a_t) - V^{\theta}(s_t)$
Shared parameter

Reward shaping
Define extra reward to guide agents
Curiosity based → see new meaningful things

No reward
Learn from demonstration
- Imitation learning
- Inverse reinforcement learning(IRL)
  $\sum R(\^\tau_n) > \sum R(\tau)$
  Actor → Generator, Reward function → Discriminator

Environment

environment state: invisible to the agent

Reward

Specify the goal

$R(x) = -L(x)$

$L(x) = \sum A_n e_n$

Agent

Policy
define agent’s behavior. $S_t → A_t$
Deterministic policy: $A = \pi(S)$
Stochastic policy: $\pi(A|S) = P(A|S)$