[논문 리뷰로의 길] 마치며 📌 관심 연구 분야 다양한 분야의 2023 논문 내용을 엿보는 시간을 가져보며 어느정도의 AI 연구 동향을 파악할 수 있었음 가장 크게 느낀 점은 AI 연구가 모든 Modality를 처리할 수 있는 Multi Modality Model을 향해 나아가고 있다는 것이었음 특히나 채팅 봇에 이미지를 접목시켰던 LLaVA와 Diffusion Model을 Vision Model로 확장한 DDVM을 보며 어떠한 Task에 다양한 Modality를 활용한다면 기존 Model의 성능 향상은 물론, 창의적인 방법의 새로운 Model을 개발할 수 있을 것이라고 느낌 실제로 무언가를 표현하는 것에는 글이 더 편하지만 정보를 습득하는 것에는 이미지와 음성이 받아들이기 수월한 사람으로써 Multi Modality Model에 .. 2024. 3. 4. [논문 리뷰로의 길] Topic 5. Reinforcement Learning (RL) 📌 Reinforcement Learning(강화학습)이란?Reinforcement Learning은 시행착오를 통해 학습하는 방법 중 하나로,관련 연구가 점점 더 많이 진행되고 있고 이에 따라 급격하게 발전하는 분야 중 하나임 특히 InstructGPT에서 RL을 사용해 Human Preference를 학습할 수 있는 RLHF을 선보이면서,기존 모델에 RL을 활용하는 방안이 활발히 연구되고 있음 📌 Direct Preference Optimization : Your Language Model is Secretly a Reward ModelInstructGPT에서 RL을 사용하여 Human Preference를 학습할 수 있는 방법을 제안하였지만,이는 복잡한 과정을 통해 이루어짐RLHF는 먼저 Hu.. 2024. 3. 4. [논문 리뷰로의 길] Topic 4. Diffusion Model 📌Diffusion Model이란?Diffusion Model은 이미지 생성 분야의 돋보이는 모델로,NeuIPS 2023에서는 크게 세 가지 연구 방향으로 나눌 수 있음 📌 ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation기존 Diffusion Model의 기능을 확장 ImageBrush : 단순 이미지 생성이 아니라, 원하는 방향으로 편집하거나 Instruction을 줌 Stable Diffusion 등 기존의 Diffusion Model을 사용해 이미지를 생성할 때원하는 이미지의 모습을 정확하게 설명하기 어렵다는 불편함이 존재했었으나,ImageBrush에서는 내가 원하는 이미지의 모습을.. 2024. 3. 4. [논문 리뷰로의 길] Topic 3. Large Multimodal Model (LMM) 📌 Large Multimodal Model이란?최근들어 Computer Vision과 Language Model을 통합한 Large Multimodel Model (LMM)이 활발히 연구되고 있음대표적으로 Flamingo, GPT4등이 존재 이들은 Image, Text 데이터를 통합 학습하며 Image, Text를 모두 입력받아 연산할 수 있음NeurIPS 2023에서도 다양한 LMM들이 발표됨 📌 Visual Instruction Tuning처음으로, LLaVA에 대해 살펴보고자 함LLaVA는 Text만을 입력으로 받는 LLM을 사용하여 간단히 LMM을 만들 수 있는 방법을 제안이를 위해 Image, Instruction, Answer로 구성된 데이터 셋을 제작해야 함 LLaVA에서는 Image.. 2024. 3. 4. 이전 1 2 다음