Tutorials (2/23)

Link

Tutorials (9:00am-6:00pm) - KCVS 2024 동계 프로그래밍 튜토리얼 (비대면)

- 9:00am-10:50am 유재준 교수 (UNIST) Introduction to Diffusion Model : from theory to practice

- 11:00am-12:50pm 어영정 교수 (연세대) Stable diffusion and various applications

- 2:00pm-3:50pm 서홍석 교수 (고려대) Multimodal Knowledge Transfer from Foundation Models

- 4:00pm-5:50pm 오태현 교수 (Postech) Multimodal Language Models : Open Your Language Model's Eyes to See

강연자 및 상세 프로그램 소개

담당 교수님 유재준 (UNIST)
제목 Introduction to Diffusion Model : from theory to practice
초록 이번 튜토리얼에서는 최근 생성 연구 분야에서 중요하게 다뤄지고 있는 'Diffusion Models'에 대해 깊이 탐구해보려 합니다. 이 튜토리얼은 이론에서 실제 적용에 이르기까지 Diffusion Model과 Score based model의 전반적인 개념과 알고리즘에 대해 체계적으로 다룰 것입니다.
우선, 전통적인 Variational Inference 개념으로부터 시작해서 이를 Diffusion model로 확장하는 방식으로 접근하여 Diffusion model과 Score based model의 loss가 왜 그렇게 생겼고 각각 어떤 의미를 지니는지 이해할 수 있도록 도울 것입니다. 그 과정에서 다른 이름을 가진 두 모델들이 왜 같은 카테고리로 묶이는지 이해할 수 있을 것입니다.
기초 내용의 특성상 이론적인 부분이 주를 이루지만 튜토리얼의 성격에 맞게 실제 구현에도 일부 초점을 맞출 예정입니다. Diffusion model과 Score based model과 관련된 코드 리뷰를 진행하여 이론에서 얘기한 부분이 실제 모델의 구현과 어떻게 맞물리는지 알 수 있도록 할 것입니다. 또한, 이 모델들을 학습시킬 때 주의해야 할 점들과, 구현 시 이해를 돕기 위한 시각화 코드도 포함시킬 예정입니다. 이러한 요소들은 모델의 작동 방식을 더욱 명확하게 이해하는 데 도움이 될 것입니다.
마지막으로, 환경이 허락한다면 실시간으로 간단한 토이 문제를 해결하며 모델을 학습시켜보는 세션도 진행할 계획입니다. 이를 통해 참가자들은 이론적인 지식과 실제 적용 사이의 간격을 좁힐 수 있을 것입니다.
Bio -2018 KAIST 박사 졸
-2018-2019 네이버 클로바 AI research scientist
-2020-2021 EPFL postdoctoral researcher
-2021-현재 UNIST AI 대학원 조교수
담당 교수님 어영정 (연세대)
제목 Stable diffusion and various applications
초록 본 튜토리얼에서는 stable diffusion부터 최신의 연구까지 다양한 이미지생성/편집 문제를 해결하는 방법들을 소개합니다.
Stable diffusion에서는 고해상도를 지원하는 원리부터 conditional generation을 하는 원리까지 기초이론을 다룹니다. 이를 기반으로 image editing, customization 등 사용자의 의도를 결과이미지에 반영하는 여러 기법을 설명합니다.
실습에서는 diffusers 입문부터 최신 연구들까지 구현체를 직접 사용하여 sota를 reproduce함으로써 diffusion model분야의 진입장벽을 낮추는 것을 목표로 합니다.
Bio -2018 연세대학교 박사
-2018-2020 NAVER CLOVA AI Research, Researcher
-2020-현재 연세대학교 글로벌인재학부 / 인공지능대학원, 조교수
담당 교수님 서홍석 (고려대)
제목 Multimodal Knowledge Transfer from Foundation Models
초록 본 튜토리얼에서는 최근 많은 관심을 받고 연구되고 있는 멀티모달 기반모델들과 이들 기반모델을 학습하기 위한 대규모 멀티모달 데이터셋들을 소개합니다.
또, 학습된 대규모 멀티모달 기반모델들을 어떻게 다양한 문제에 적용하여 사용할 수 있는지 살펴볼 예정입니다.
마지막으로 가장 많이 활용되고 있는 멀티모달 기반모델 중 하나인 CLIP 모델을 별도의 학습 없이 zero-shot referring image segmentation 문제에 적용시켜보는 프로그래밍 실습을 진행함으로써 배운 내용을 연습해볼 수 있을 것입니다.
Bio -2020 POSTECH 박사 졸
-2021-2023 Google Research Scientist
-2023-현재 고려대학교 컴퓨터학과 조교수
담당 교수님 오태현 (Postech)
제목 Multimodal Language Models: Open Your Language Model’s Eyes to See
초록 본 튜토리얼에서는 범용적이고 지적인 멀티모달 언어 모델을 효율적으로 구현하는 프로그래밍 실습을 진행합니다.
궁극적으로 우리들이 만들고 싶어하는 AI는 로봇과 같이 몸을 가지고, 사람과 비슷한 레벨에서 세상을 이해하며, 소통하고 협력하고, 사람에게 도움을 주는 AI일 겁니다. 이러한 AI 시스템의 지능을 구축하기 위해, 먼저 Cognition과 Perception 능력이 개발되어야 합니다. 최근 ChatGPT와 같은 대규모 언어모델의 발전을 기반으로 Cognition 능력을 모사하고, 그 언어모델에 눈과 귀를 달아 멀티모달로 이루어진 세상을 이해할 수 있도록 Perception 능력을 확장하는 시도들이 이루어지고 있습니다. 언어의 습득을 통해 획득한 이해력과 사고력을 바탕으로 시각, 청각으로 확장된 멀티모달 언어모델들의 놀라운 지적 능력은 새로운 가능성들을 보여주고 있습니다.
본 튜토리얼에서는 멀티모달 언어모델들의 개발 트렌드에 대해서 간단하게 살펴보고, 언어모델의 사고 능력을 유지하면서, 언어모델이 앞을 볼 수 있는 리소스 효율적인 방법에 대해서 소개를 하고 실습을 진행합니다. 더나아가, 비언어적인 요소들로 구성된 세상을 이해하는 이상적인 AI모델을 구현하기 위한 미래 방향에 대해서 논의하는 것으로 마무리 할 예정입니다.
Bio -2017 KAIST 박사 학위
-2017-2019 미국 MIT CSAIL, 박사후연구원
-2019-2020 미국 Facebook AI Research, 박사후연구원
-2020-2023 POSTECH 전자과 조교수
-2021-2023 POSTECH-RIST 오픈랩, 연구단장 (겸직)
-2023-현재 POSTECH 전자과 부교수