📌 Reinforcement Learning(강화학습)이란?
Reinforcement Learning은 시행착오를 통해 학습하는 방법 중 하나로,
관련 연구가 점점 더 많이 진행되고 있고 이에 따라 급격하게 발전하는 분야 중 하나임
특히 InstructGPT에서 RL을 사용해 Human Preference를 학습할 수 있는 RLHF을 선보이면서,
기존 모델에 RL을 활용하는 방안이 활발히 연구되고 있음
📌 Direct Preference Optimization : Your Language Model is Secretly a Reward Model
InstructGPT에서 RL을 사용하여 Human Preference를 학습할 수 있는 방법을 제안하였지만,
이는 복잡한 과정을 통해 이루어짐
RLHF는 먼저 Human Preference Dataset을 구성한 뒤 이를 학습한 Reward Model을 구성하고,
이를 학습한 Reward Model을 사용해 최종적으로 Human Preference를 반영한 LM Policy를 학습함
반면 DPO는 Human Preference Dataset을 사용해 곧바로 LM을 Finetuning하며
RLHF의 두 단계 학습 과정을 한 단계로 간소화
📌 DPOK : Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models
Diffusion Model에서의 RL 활용 방안이 제안됨
DPOK에서는 Text to Image Diffusion Model을 RL을 사용하여 Finetuning하는 방법을 제안
기존 Supervised Finetuning 방법에서는 Pretrained Diffusion Model을 사용해 이미지를 생성한 후
이들 이미지에 대한 Human Preference를 반영한 Reward Function을 구성하며
이 Reward Function을 사용하여 최종적으로 Diffusion Model을 Finetuning함
이 방법은 이미 구성된 Dataset에 대해서만 Preference를 학습한다는 한계 존재
DPOK에서는 이미지 생성, 평가, 피드백을 Iterative하게 구성하는 방법을 제안
이를 통해 모델은 지속적으로 Preference를 반영하며 학습해 더 좋은 성능을 보여줌
『
❓ 강화학습이란?
Trial and Error를 통해 학습하는 방법 중 하나로,
실수와 보상을 통해 학습을 하여 목표를 찾아가는 알고리즘
기존의 신경망들이 라벨이 있는 데이터를 통해서 가중치와 편향을 학습하는 것과 비슷하게
보상이라는 개념을 사용하여 가중치와 편향을 학습한다고 생각하면 됨
➡️ 최적의 행동양식 또는 정책을 학습시키는 것을 목표로 함
』
'[논문 리뷰] > 논문 리뷰로의 길' 카테고리의 다른 글
[논문 리뷰로의 길] 마치며 (0) | 2024.03.04 |
---|---|
[논문 리뷰로의 길] Topic 4. Diffusion Model (2) | 2024.03.04 |
[논문 리뷰로의 길] Topic 3. Large Multimodal Model (LMM) (0) | 2024.03.04 |
[논문 리뷰로의 길] Topic 2. Large Language Model (LLM) (0) | 2024.03.04 |
[논문 리뷰로의 길] Topic 1. Computer Vision(CV) (0) | 2024.03.04 |