왼손잡이해방연대 아지트

사용자 확인중...

강화학습 실험 환경 찾아요

푸른레몬팝콘,

37

0

강화학습 프로젝트를 진행하고 있습니다. PRM + GRPO 알고리즘을 이용하는 것입니다. 간단하게 설명해보자면 수학 문제처럼 과정과 답에 대해 점수가 나오면 그것을 이용해서 모델을 업데이트 하는 방식에 대해 실험을 해보려고 합니다. 실험 환경을 찾고 있는데 머리가 아픕니다.
수학 문제는 답만 보고 맞았다 틀렸다를 알 수 있죠. 결과 기반의 점수 부여가 유용합니다. 반면 풀이 과정을 보면서 각 과정에 점수를 주고 그 과정까지의 점수 합을 기반으로 업데이트를 진행하는 것도 유효합니다. 이런 환경이 있을까요?

필요한 환경의 조건은

  • 최종 목표(수학 문제의 답, 마지막 목적지 등)이 있고 에피소드 단위로 실험할 수 있음.
  • 중간 과정에 대한 평가를 적절히 할 수 있지만 마지막 답만 보고도 평가할 수 있음.

지금 생각해보고 있는 것은

  1. LunaLander
    여기서는 우주선이 지정된 목적지에 스무스 하게 착지해야 합니다. 공중에서 지면으로 내려가는 과정에서 연료를 최대한 덜 쓰고 균형을 잘 유지하는 게 목푭니다. 매 timestep마다 점수가 나오며 많이 흔들리면 음수 점수를 받는데 착지까지 해서 200점을 받으면 잘 학습된 거라고 봅니다. 이게 좋은데 성공 기준에 중간 과정들이 많은 영향을 미쳐서 적절한 환경인지 잘 모르겠습니다.
    결과 기반으로 점수를 주기에도 애매한 면이 있습니다. 그냥 최종 점수를 모든 timestep에서 업데이트 하는데 사용하긴 좀 무리가 있지 않을까 생각했습니다.

  2. Procgen Benchmark
    이건 강화학습 훈련시킬 수 있게 만든 게임 환경인데요. 여기서 개구리 길건너기 같은 게임이 적절할 것 같습니다. 길 한 칸 건너는 걸 단계(과정)이라고 보고 끝에 도달하는 걸 최종 목표로 생각했을 때 점수를 주기 괜찮을 것 같습니다. 정확히 reward가 어떻게 나오는지는 살펴보는 중입니다.

  3. TSP (Traveling Salesman Problem)
    유명한 최단 경로 문제입니다. 모든 도시를 돌고 원래 도시로 돌아올 때 최단 거리를 구해야 합니다. 결과 기반 점수는 한 바퀴 돌고 걸린 거리로 줄 수 있을 것 같고, 과정 점수는 한 도시를 갔을 때마다 거리 기반으로 줄 수 있을 것 같습니다. 이건 과정 점수가 아주 적절하진 않다고 생각해서 고민 중입니다.

다들 학기 말이라 과제하랴 시험 준비하랴 프로젝트 마무리하랴 졸업 논문 작성하랴 바쁘시죠? 우리 같이 힘냅시다.

혹시나 좋은 아이디어나 정보가 있다면 공유 부탁드립니다. 감사합니다.

아, 혹시 GRPO가 뭔지 궁금하신가요? 첨부파일을 확인해보세요.

첨부파일


목록

https://openreview.net/forum?id=7vPSZASOF0o

TSP(n=15) 문제를 RL로 푸는 work도 있더군요