Decision Transformer: Reinforcement Learning via Sequence Modeling

Decision Transformer

Untitled

Framework that abstracts reinforcement learning (RL) as sequence modeling problem
- By using Transformer(RL Concepts + Transformer)
- SO Decision Transformer is model-free offline RL algorithms
Why do they use transformer?
- Architecture itself
  - Used in many area (Vision-ViT, Graph-GTNs, even Time-series)
  - Easy to scale
  - Many prior works about stability of transformer Can model long-sequence

Overview of DT

                                                                        Overview of DT

Architecture는 GPT와 같음(decoder를 사용)
return, state, action를 한 스텝의 입력으로 sequence하게 구성
key, query, value의 유사도를 이용해 state-return associations을 함축적으로 형성
과거 보상들보다 미래의 기대 Return에 기반된 actions을 생성하도록 모델링하길 원하기 때문에 rewards을 바로 모델에 주는 대신, Return to go형식으로 모델에 입력함
5 step마다 action(모든 action)으로 loss를 계산하는 식으로 학습

policy sampling을 autoregressive generative modeling으로 축소가능
- policy sampling을 줄임
Need not Bootstraping →deadly triad 방지
- 기존 offline RL(보통 TD같은 알고리즘을 적용함)으로 인한 문제(error propagation과 value overestimation)들이 존재
  - 이전값을 이용해 다음값을 예측하므로
  - value overestimation : exploration을 안하므로 잘못된 action에 대해 Return이 과대평과되는 문제
  - error propagation : 에러가 누적될 수있음
- Long-term credit assignment problem
- **Credit Assignment : 어떤 step이 Return에 큰 영향을 끼쳤는지, 즉 어떤 state가 중요한지 알 수 있음
- Self-attention can assign credits to each actions!
- Transformer can do credit assignment directly because it models long term sequence
- Generalize better
Environment is also not necessary
trajectory가 expert에 의해 만들어진 optimal policy가 아니어도 됨 → Imitation learning과의 차이점

compare with model-free offline RL algorithms based on TD-learning and behavior cloning
- CQL(conservative Q learning) : 당시 Model Free Offline RL SOTA(TD offline RL)
- REM : TD offline RL
- QR-DQN : Off-policy RL