본문 바로가기
[논문 리뷰]/논문 리뷰로의 길

[논문 리뷰로의 길] Topic 5. Reinforcement Learning (RL)

by seom-j 2024. 3. 4.

 

📌 Reinforcement Learning(강화학습)이란?

Reinforcement Learning은 시행착오를 통해 학습하는 방법 중 하나로,

관련 연구가 점점 더 많이 진행되고 있고 이에 따라 급격하게 발전하는 분야 중 하나임

 

특히 InstructGPT에서 RL을 사용해 Human Preference를 학습할 수 있는 RLHF을 선보이면서,

기존 모델에 RL을 활용하는 방안이 활발히 연구되고 있음

 

 

📌 Direct Preference Optimization : Your Language Model is Secretly a Reward Model

InstructGPT에서 RL을 사용하여 Human Preference를 학습할 수 있는 방법을 제안하였지만,

이는 복잡한 과정을 통해 이루어짐

RLHF는 먼저 Human Preference Dataset을 구성한 뒤 이를 학습한 Reward Model을 구성하고,

이를 학습한 Reward Model을 사용해 최종적으로 Human Preference를 반영한 LM Policy를 학습함

 

반면 DPO는 Human Preference Dataset을 사용해 곧바로 LM을 Finetuning하며

RLHF의 두 단계 학습 과정을 한 단계로 간소화

 

 

📌 DPOK : Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models

Diffusion Model에서의 RL 활용 방안이 제안됨

DPOK에서는 Text to Image Diffusion Model을 RL을 사용하여 Finetuning하는 방법을 제안

기존 Supervised Finetuning 방법에서는 Pretrained Diffusion Model을 사용해 이미지를 생성한 후

이들 이미지에 대한 Human Preference를 반영한 Reward Function을 구성하며

이 Reward Function을 사용하여 최종적으로 Diffusion Model을 Finetuning함

 

이 방법은 이미 구성된 Dataset에 대해서만 Preference를 학습한다는 한계 존재

 

DPOK에서는 이미지 생성, 평가, 피드백을 Iterative하게 구성하는 방법을 제안

이를 통해 모델은 지속적으로 Preference를 반영하며 학습해 더 좋은 성능을 보여줌

 

 

❓ 강화학습이란?

Trial and Error를 통해 학습하는 방법 중 하나로,

실수와 보상을 통해 학습을 하여 목표를 찾아가는 알고리즘

 

기존의 신경망들이 라벨이 있는 데이터를 통해서 가중치와 편향을 학습하는 것과 비슷하게

보상이라는 개념을 사용하여 가중치와 편향을 학습한다고 생각하면 됨

 

➡️ 최적의 행동양식 또는 정책을 학습시키는 것을 목표로 함