본문 바로가기
[논문 리뷰]/논문 리뷰로의 길

[논문 리뷰로의 길] Topic 4. Diffusion Model

by seom-j 2024. 3. 4.

 

📌Diffusion Model이란?

Diffusion Model은 이미지 생성 분야의 돋보이는 모델로,

NeuIPS 2023에서는 크게 세 가지 연구 방향으로 나눌 수 있음

 

 

📌 ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation

기존 Diffusion Model의 기능을 확장

 

ImageBrush : 단순 이미지 생성이 아니라, 원하는 방향으로 편집하거나 Instruction을 줌

 

Stable Diffusion 등 기존의 Diffusion Model을 사용해 이미지를 생성할 때

원하는 이미지의 모습을 정확하게 설명하기 어렵다는 불편함이 존재했었으나,

ImageBrush에서는 내가 원하는 이미지의 모습을 언어로 설명하지 않고, 예시 이미지로 Instruction을 주는 방법을 제안

위 그림처럼, Instruction을 통해 Before/After 이미지를 제공한 후 Query Image를 입력한다면

Instruction에 맞도록 이미지를 편집해줌

 

 

이를 위해 ImageBrush에서는 4개의 Image를 Grid 형태로 만들어 한 번에 Diffusion Model에 입력해주는 방법 사용

 

Instruction 이미지 2개, 입력 이미지, 그리고 출력으로 생성해야 하는 이미지를 하나의 입력 형태로 구성

그리고 Instruction과 Query 간의 상관관계를 계산하기 위해 Transformer 사용

 

결과적으로 Self Attention과 Cross Attention을 적절히 구성하여 입력 이미지를 어떻게 변형해주어야 하는지 학습

 

 

📌 The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

Diffusion Model을 Vision Model로 확장

 

DDVM : Diffusion Model을 Depth/Flow Estimation모델로 사용

Depth, Flow 등의 Noisy Map을 입력받고, Condition으로 RGB Image를 입력

Output으로는 Ground Truth Map 출력

 

즉 이미지를 생성하는 Diffusion Model이 아닌, 이미지를 참고해 Depth/Flow 를 생성하는 Diffusion Model

 

이렇게 학습한 DDVM은 기존의 Depth/Flow Estimation 모델에 필적하는 성능을 보여줌

 

 

📌 StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

기존 Task에 Diffusion Model을 활용

 

StableRep : Diffusion Model로 이미지를 생성하고, 이렇게 생성한 이미지를 기존 Vision Model의 학습에 사용

위 그림과 같이 Stable Diffusion Model을 사용하여 이미지를 합성하고, 이를 학습 데이터로 활용하는 방법을 제안

뿐만 아니라 이렇게 합성된 이미지를 효율적으로 학습하는 Self-supervised Learning 방법도 함께 제안

Caption을 사용해 이미지, 정렬을 학습했던 CLIP과 달리 Caption을 Stable Diffusion에 입력해 이미지를 합성

합성된 이미지들은 SimCLR와 유사하게 Contrastive Learning 방법으로 학습

 

 

Diffusion Model이란?

데이터를 만들어내는 deep generative model 중 하나로, data에 noise를 조금씩 더해가거나 noise로부터 조금씩 복원해가는 과정을 통해 data를 generate하는 모델

 

위 그림의 오른쪽에서 왼쪽 방향으로 noise를 점점 더해가는 forward process q를 진행

이후 forward process를 반대로 추정하는 reverse process p를 학습

 

➡️ random noise로부터 우리가 원하는 image, text, graph등을 generate할 수 있는 모델

 

Stable Diffusion이란?

2022년에 발표된 text-to-image 딥러닝 모델

텍스트 및 이미지 프롬프트에서 고유한 실사 이미지를 생성하는 생성형 인공지능 모델

 

다른 많은 이미지 생성 모델과 달리 이미지의 픽셀 공간을 사용하지 않고 해상도가 낮은 잠재 공간 사용

적은 VRAM만으로 구동이 가능하며 일반 소비자에게도 접근성이 뛰어남

 

또한 Diffusion 모델과 달리 Latent Diffusion 모델 기반 사용

노이즈에서 복원하는 것은 같지만, 이미지를 바로 복원하는 것이 아니라

Latent vector를 복원한 후 이 Latent vector가 다시 VAE를 거쳐 이미지가 됨