Decision Transformer
What is Decision Transformer(DT)?
- Framework that abstracts reinforcement learning (RL) as sequence modeling problem
- By using Transformer(RL Concepts + Transformer)
- SO Decision Transformer is model-free offline RL algorithms
- Why do they use transformer?
- Architecture itself
- Used in many area (Vision-ViT, Graph-GTNs, even Time-series)
- Easy to scale
- Many prior works about stability of transformer Can model long-sequence
Method detail
Overview of DT
- Architecture는 GPT와 같음(decoder를 사용)
- return, state, action를 한 스텝의 입력으로 sequence하게 구성
- key, query, value의 유사도를 이용해 state-return associations을 함축적으로 형성
- 과거 보상들보다 미래의 기대 Return에 기반된 actions을 생성하도록 모델링하길 원하기 때문에 rewards을 바로 모델에 주는 대신, Return to go형식으로 모델에 입력함
- 5 step마다 action(모든 action)으로 loss를 계산하는 식으로 학습
What is Advantage?
- policy sampling을 autoregressive generative modeling으로 축소가능
- Need not Bootstraping →deadly triad 방지
- 기존 offline RL(보통 TD같은 알고리즘을 적용함)으로 인한 문제(error propagation과 value overestimation)들이 존재
- 이전값을 이용해 다음값을 예측하므로
- value overestimation : exploration을 안하므로 잘못된 action에 대해 Return이 과대평과되는 문제
- error propagation : 에러가 누적될 수있음
- Long-term credit assignment problem
- **Credit Assignment : 어떤 step이 Return에 큰 영향을 끼쳤는지, 즉 어떤 state가 중요한지 알 수 있음
- Self-attention can assign credits to each actions!
- Transformer can do credit assignment directly because it models long term sequence
- Generalize better
- Environment is also not necessary
- trajectory가 expert에 의해 만들어진 optimal policy가 아니어도 됨 → Imitation learning과의 차이점
Experiment
- compare with model-free offline RL algorithms based on TD-learning and behavior cloning
- CQL(conservative Q learning) : 당시 Model Free Offline RL SOTA(TD offline RL)
- REM : TD offline RL
- QR-DQN : Off-policy RL