Decision Transformer

What is Decision Transformer(DT)?
- Framework that abstracts reinforcement learning (RL) as sequence modeling problem
- By using Transformer(RL Concepts + Transformer)
 
- SO Decision Transformer is model-free offline RL algorithms
 
 
- Why do they use transformer?
- Architecture itself
- Used in many area (Vision-ViT, Graph-GTNs, even Time-series)
 
- Easy to scale
 
- Many prior works about stability of transformer Can model long-sequence
 
 
 
Method detail

                                                                        Overview of DT
- Architecture는 GPT와 같음(decoder를 사용)
 
- return, state, action를 한 스텝의 입력으로 sequence하게 구성
 
- key, query, value의 유사도를 이용해 state-return associations을 함축적으로 형성
 
- 과거 보상들보다 미래의 기대 Return에 기반된 actions을 생성하도록 모델링하길 원하기 때문에 rewards을 바로 모델에 주는 대신, Return to go형식으로 모델에 입력함
 
- 5 step마다 action(모든 action)으로 loss를 계산하는 식으로 학습
 
What is Advantage?
- policy sampling을 autoregressive generative modeling으로 축소가능
 
- Need not Bootstraping →deadly triad 방지
- 기존 offline RL(보통 TD같은 알고리즘을 적용함)으로 인한 문제(error propagation과 value overestimation)들이 존재
- 이전값을 이용해 다음값을 예측하므로
 
- value overestimation : exploration을 안하므로 잘못된 action에 대해 Return이 과대평과되는 문제
 
- error propagation : 에러가 누적될 수있음
 
 
- Long-term credit assignment problem
 
- **Credit Assignment : 어떤 step이 Return에 큰 영향을 끼쳤는지, 즉 어떤 state가 중요한지 알 수 있음
 
- Self-attention can assign credits to each actions!
 
- Transformer can do credit assignment directly because it models long term sequence
 
- Generalize better
 
 
- Environment is also not necessary
 
- trajectory가 expert에 의해 만들어진 optimal policy가 아니어도 됨 → Imitation learning과의 차이점
 
Experiment
- compare with model-free offline RL algorithms based on TD-learning and behavior cloning
- CQL(conservative Q learning) : 당시 Model Free Offline RL SOTA(TD offline RL)
 
- REM : TD offline RL
 
- QR-DQN : Off-policy RL