A Survey on Multimodal Large Language Models
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models?tab=readme-ov-file
Description
Summary
ChatGPT the GOAT
๋ฉํฐ๋ชจ๋ฌ-LLM์ ๋ํ ์๋ฒ ์ด ๋ ผ๋ฌธ
๊นํ๋ธ์ ์ ๋ณ๋ ๋ ผ๋ฌธ๋ค ๋ฐ ๋ฐ์ดํฐ / ๋ฒค์น๋งํฌ๊ฐ ์ฌ๋ผ์์์ต๋๋ค ๐์ธ๋ผ์ด
ํ์ต ์ํ๋ ๋ ผ๋ฌธ์ ๋์ฒด๋ก ChatGPT(3.5, 4) / GPT3์ ์ฌ์ฉ(๋ฉํ๋ ๋ผ๋ง70B)
ํ์ต๋ ผ๋ฌธ๋ ๋ฐ์ดํฐ ๋ง๋๋๋ฐ๋ ๋ค ChatGPT(3.5, 4)๋ฅผ ์ฌ์ฉ. ์ต์ ๋ ผ๋ฌธ์ ๋ค 4์ธ๋ฐ ์ด๋ฏธ์ง ์ฌ์ฉ ์ธํผ๋ฐ์ค๋ผ ๋์ด ์์ฒญ ๋ค์์ ๊ฒ์ผ๋ก ์ถ์ ...
Vision embedding์์๋ ViT๋ฅผ ๋๋ถ๋ถ ์ฐ๋ค์.
Introduction
๋ฉํฐ๋ชจ๋ฌ์ ์ฐ๋ฉด ์ข์ ์ ?
์ฌ๋์ ์๊ฐ, ์ฒญ๊ฐ์ ๊ฐ์ด ํ์ฉํ์ฌ ์ดํดํ๊ธฐ ๋๋ฌธ์ ์ฌ๋๊ณผ ๋ ์ ์ฌํ ์ฌ๊ณ ๋ฅผ ํ ์ ์์ต๋๋ค. ๋ํ, ์ฌ์ฉ ์ ๋ณด๋ค ๋์ ์์ ๋๋ฅผ ์ ๊ณตํ๋ฉฐ, ๋ ๋ง์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์์ต๋๋ค.
๊ธฐ์กด์ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ๊ณผ์ ๋น๊ต
๊ณผ๊ฑฐ ๋ ผ๋ฌธ(https://arxiv.org/pdf/1707.07998.pdf)์ ์ฐธ๊ณ ํ๋ฉด, ๊ธฐ์กด ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ๊ณผ ํ ์คํธ ์๋ฒ ๋ฉ์ ๊ฐ์ง๊ณ attention์ ๊ตฌํด ์ ๋ต ๋จ์ด๋ฅผ ๊ตฌํ๋ ํ์์ ๊ฐ์ง๊ณ ์๋ค.
ํ์ฌ ๋ฉํฐ๋ชจ๋ฌ ๊ตฌ์กฐ๋ ์ด์ ์ ์ฌํ๊ฒ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ๊ณผ ํ ์คํธ ์๋ฒ ๋ฉ์ ๊ฐ์ง๊ณ ๋ต๋ณ์ ์์ฑํจ. ๊ทธ๋ฌ๋ ๋ต๋ณ ์์ฑ ์ ๋ ๊ธธ๊ณ ์์ธํ ๋ต๋ณ์ ์์ฑํ ์ ์๊ณ reasoning์ด ๊ฐ๋ฅํ๋ค๋ ์ฐจ์ด์ ์ด ์๋ค. ์ด๋ ์ธ์ด ๋ชจ๋ธ์ ๋ณํ๋ก ์ธํด ๋ต๋ณ์ด ์์ฑํ์ผ๋ก ๋ณํ๋ค๋ ์ ๊ณผ, ์ด๋ฏธ์ง ๋ชจ๋ธ๊ณผ ์ธ์ด ๋ชจ๋ธ์ ๊ธ๊ฒฉํ ์ฑ๋ฅ ํฅ์์ ๊ธฐ์ธํ๋ค. ChatGPT ๋ฑ์ฅ
์ด ๋
ผ๋ฌธ์ด ๋ค๋ฃจ๋ ๋ฒ์
Multimodal LLM์ด๋ฏ๋ก ํ ์คํธ ๋ฐ๋์ ํฌํจ
Multimodal์ ์ด๋ฏธ์ง, ์์ฑ, ๋น๋์ค ๋ฑ์ด ํฌํจ
์๋ต์ด ํ ์คํธ
LLM์ด ๋ฒ ์ด์ค - ๋น์ ๋ชจ๋ธ ๋ฒ ์ด์ค์ธ๋ฐ ํ ์คํธ๋ ์ดํดํ ์ ์์ต๋๋ค! ๋ ์ ์ธ
Task Finetuning์ ์ ์ธํ์ (๋ฐ์ ์ด๋ฏธ์ง)

์ด ๋ ผ๋ฌธ์์๋ ์ ๋ง ํฐ ๊ฐ์ง๋ง์ ์ค๋ช ํ๊ณ ์๊ณ , ์์ธํ implementation detail์ ๋ํด์๋ ๋ค๋ฃจ๊ณ ์์ง ์์(์ฃผ๋ก ์ด๋ค ๋ชจ๋ธ์ ์ฐ๋์ง?) ๊ฐ๊ฐ์ ๋ ผ๋ฌธ์ ๋ํด ๋ง์ด ์ค๋ช ํ๊ณ ์์ง๋ ์์............
Method
Multimodal Instruction Tuning (M-IT)
Instruction Tuning
์ง์ - ์๋ต ์ ํ์์ผ๋ก ๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ ๋ชจ๋ธ(PLM)์ ํ์ต์ํด.
PLM์ ๊ฒฝ์ฐ ๋จ์ํ '๋ค์ ๋จ์ด ์์ฑ'์ ๋ชฉ์ ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์ ๊ทธ๋ฅ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํฌ๋งท์์ด ์ง์ด๋ฃ๋ ๋๋. ๋ฐ๋ผ์ ์ง๋ฌธ์ ์ ๋ ฅ์ผ๋ก ์ฃผ๋ฉด ์ด์ํ ๋ง์ ํ ์๋ ์์
์ค๋ ์ ์ฌ ๋ญ์ผ -> ์ค๋ ์ ์ฌ ๋ญ์ผ ์ค๋ ์ ๋ ๋ญ์ผ ๋ด์ผ ์ ์ฌ ๋ญ์ผ ๋ด์ผ ์ ๋ ๋ญ์ผ...Instruction ๋ฐ์ดํฐ๋ ์ง์-์๋ต ํ์์ผ๋ก ๋์ด ์์ผ๋ฉฐ, ์ผ๋ฐ์ ์ผ๋ก ํน์ ํฌ๋งท์ ๋ง์ถฐ์ ํ์ต์ํค๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ด ์! ๋ ๋๋ตํ ์ฐจ๋ก ํ๊ณ ๋๋ตํจ.
๋ชจ๋ฅด๋ ์ง์๋ฌธ์ด ๋์ค๋ฉด PLM์ฒ๋ผ ๋ ๋ป์งํจ. ๋ฐ๋ผ์ ์ง์๋ฌธ์ ์์ด ๋ง๊ณ , ์ข ๋ฅ๊ฐ ๋ง๊ณ , ๋ต๋ณ๋ ์์ธํ๊ณ ์ง์๋ฅผ ์ ๋ฐ๋ฅผ์๋ก ์ข์ ๋ฐ์ดํฐ.
Multimodal Instruction Tuning
์ง์-์๋ต ์ค '์ง์' ๋ถ๋ถ์ ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๊ฐ ๊ฐ์ด ๋ค์ด๊ฐ.
<๊ท์ฌ์ด ๊ณ ์์ด ์ฌ์ง>์ ์ด๋ฆ์ง์ด์ค -> ๋ฐ๊พธ๋ฝ์ด ํ์ ๊ฑธ ๋ณด๋ ์๋ง์ ์ ์ ๊ฒ ๊ฐ๋ค์. '์๋ง์ด' ์ด๋จ๊น์?
<๊ฒ์ ๋์์>๋ช๋ฒ์ฃฝ์์? -> 1:10, 1:14, 1:15, 1:16, 2:21, 2:35, 3:46, 3:47, 5:55, 5:56, 6:01, 6:02, 6:04์์ ์ฃฝ์์ผ๋ ์ด 13๋ฒ ์ฃฝ์๋ค์!
๋ฉํฐ๋ชจ๋ฌ ํ๋์์ ์ค์ํ ๊ฒ์ ๋ค์ ๋ ๊ฐ์ง๋ผ๊ณ ๋ณผ ์ ์์.
์ด๋ป๊ฒ ๋ฉํฐ๋ชจ๋ฌ instruction๋ฐ์ดํฐ๋ฅผ ๋ง๋ค๊น? ํด๋ฆฝ์ด ์ ๋ฐ์ดํธ ์ ๋๋ ๊ฑธ ๋ณด๋ฉด ์๊ฒ ์ง๋ง.... ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ์ ์๊ฐ ๋๋ฌด ์ ์. ๋ฐ๋ผ์ ๋ฐ์ดํฐ์ ์๋ฅผ ์ฐ์ ์ ์ผ๋ก ๋๋ ค์ผ ๋๊ณ , instruction๋ ๋ค์ํด์ผ ๋๊ณ , ๋ต๋ณ ๊ธธ์ด๋ ๋จ๋ต์ด ์๋์ด์ผ ๋จ!
์ด๋ป๊ฒ ๋ฉํฐ๋ชจ๋ฌ ์ ๋ณด๋ฅผ ์ธ์ด ๋ชจ๋ธ์ด ์ดํดํ๊ฒ ํ ๊น? ์ด๋ฏธ์ง / ์์ฑ / ๋์์ ๋ฑ์ feature๋ฅผ ์ธ์ด ๋ชจ๋ธ์ด ์ดํดํ ์ ์๋๋ก ํด์ผ ํ๋ค. ๊ฐ์ฅ ๊ฐ๋จํ๊ฒ๋ ์ด๋ฏธ์ง ์บก์ ๋์ ์จ์ ์ด๋ฏธ์ง -> ํ ์คํธ๋ก ๋ง๋ ๋ค์์ ์ธ์ด ๋ชจ๋ธ์ ๋จน์ด๋ ๊ฒ(ํ์)
๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด๋ณด์
๋ฒค์น๋งํฌ ๋ฐ์ดํฐ๋ก ๋ง๋ค์ด๋ณด์
๋ฒค์น๋งํฌ ๋ฐ์ดํฐ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ํ์ง์ด ์ด๋์ ๋ ๋ณด์ฅ๋๋ค๊ณ ํ ์ ์์ด์ ์ฌ์ฉํ๊ธฐ ์ข๋ค.
์ด๋ฏธ์ง: ์ด๋ฏธ์ง+์บก์ ์์ฑ / ์ด๋ฏธ์ง+OD๋ก object๋ฅผ ๊ฐ์ ธ์์ ๋ฉํ๋ฐ์ดํฐ ๋ง๋ค๊ธฐ
์์ฑ: ์์ฑ-ํ ์คํธ ํ์ด ๊ทธ๋ฅ ๊ฐ์ ธ๋ค ์ฐ๋ฉด ๋จ.
๋์์น: ํ๋ ์-์์ฑ-์๋ง ํ์ด๋ฅผ ์ฌ์ฉํด์ ๋ฉํ๋ฐ์ดํฐ ๋ง๋ค๊ธฐ. ํน์ ํ๋ ์์์ ์์ ์ด๋ฏธ์ง ๋ฉํ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด์ ๊ฐ์ด ์ฌ์ฉํ๊ธฐ๋ ํ๋ค.
Augmentation
๋ฐ๋ก ์ฌ์ฉํ๊ธฐ์๋ ๋ฉํฐ๋ชจ๋ฌ+๊ฐ๋จํ์ง๋ฌธ->๋จ๋ต์ผ๋ก ์ด๋ฃจ์ด์ ธ์๊ธฐ ๋๋ฌธ์ ์ฝ๊ฐ์ ํธ๋ฆญ์ ์์ (LLaVA, MiniGPT-4, GPT4Tools, ...)
๋จ๋ต์ ๋ณด๊ณ ๊ธด ๋ฌธ์ฅ์ ์์ฑํ๊ฒ ์ํค๊ธฐ(ChatGPT)
์ง๋ฌธ ๋๋ต ๋ ๋ค ์์ฑํ๊ฒ ์ํค๊ธฐ(ChatGPT)
๋๋ต์ reasoning์ ํ๊ฒ ์ํค๊ธฐ(ChatGPT)
ํ ์คํธ ์จ๋ฆฌ ๋ฐ์ดํฐ + ๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ ์ฐ๊น (LaVIN, MultiInstruct)
์ด๋ ๊ฒ ํ๋ฉด ํ ์คํธ๋ก๋ง ์ง๋ฌธํด๋ ๋๋ตํ ์ ์๊ฒ ๋จ.
MultiInstruct ์
๋ถ๋ถ์ ์ผ๋ก ์์ด๋ ์ฑ๋ฅ์ด ๊ทธ๋ ๊ฒ ๋จ์ด์ง์ง ์๋๋ค.
๋ชจ๋ธ์ด ๋ฉํฐ๋ชจ๋ฌ์ ์ดํดํ๊ฒ ํด๋ณด์
Using Experts (VideoChat-Text)
๋ฐ์ดํฐ๋ฅผ ๋ง๋๋ ๊ฒ ์๋๊ณ , ์์ฑ ์คํ ์์ metadata๋ฅผ ์ค experts๊ฐ ๋ค์ด๊ฐ๋ค. ์บก์ ์ ๋ณด๊ฐ ํ ์คํธ ์์ฑ ์ ์ถ๊ฐ๋ก ์ฃผ์ด์ง๋ค๋๊ฐ...
๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ๊ฐ ์ง์ ์ ์ผ๋ก ์ธ์ด๋ชจ๋ธ์ ๋ค์ด๊ฐ๋ ๊ฒ์ด ์๋๋ผ์ information loss๊ฐ ๋ฐ์ํ๋ค.
Learnable Parameter (LLaVA, MedVIn-T, Flamingo, BLIP-2 ..)
์ด๋ฏธ์ง๋ embedding์ด ํ ์คํธ๋ณด๋ค ํจ์ฌ ํฌ๋๊น projection layer๋ฅผ ๋ง๋ค์ด ํ์ต์ํค์!
๋ฉํฐ๋ชจ๋ฌ embedding์ ์ดํดํ๊ธฐ ์ํ ์ถ๊ฐ ํ์ต ๊ฐ๋ฅ ์๋ฒ ๋ฉ/๋ ์ด์ด๋ฅผ ๋ง๋ค์!
์ถ๊ฐ ๋ ์ด์ด ๋ง๊ณ ๊ทธ๋ฅ ์ ์ ํจ๋ฌ๋ฏธํฐ๋ง ํ๋(=lora๋ฑ)ํ๋ฉด ๋๋ค! (LLaMA-Adapter, LaVIN)
Multimodal In-Context Learning
In-Context Learning
ํจ์ท/์ ๋ก์ท์ ์์๊ฒ ์ด ๋ง.
in-context learning์์ ์ค์ํ ๊ฒ์ ๋ค์ ๋ ๊ฐ์ง์ด๋ค. ๋ชจ๋ธ์ ๋ฅ๋ ฅ๋ ๋น์ฐํ ์ค์ํ์ง๋ง, ์ ์ด์ ๋ชจ๋ธ์ด ๊ตฌ๋ฆฌ๋ฉด ICL์์ฒด๊ฐ ๋์ง๋ฅผ ์์ผ๋ ๋ ผ์ธ. ๊ทธ๋์ ์ด ๊ตฌ๊ฐ์์ ์๊ฐ๋ ๋ ผ๋ฌธ๋ค์ ๋๋ถ๋ถ ChatGPT๋ฅผ ์ด๋ค.
์ํ ํ๋ฆฌํฐ
ํ๋กฌํํธ
ํจ์ท์ ํ๋กฌํํธ๊ฐ ์กฐ๊ธ ๊ตฌ๋ ค๋ ์ํ์ด ๊ด์ฐฎ์ผ๋ฉด ์ ํ๋ ํธ / ์ ๋ก์ท์ ํ๋กฌํํธ๋ฅผ ์์ฒญ๋๊ฒ ๋ง์ ธ์ผ ํ๋ค.
๋ฉํฐ๋ชจ๋ฌ ์๋ฒ ๋ฉ ์ฒ๋ฆฌ๋ ์ด๋ป๊ฒ ํ์ฃ ? -> ๊ทธ๋์ ChatGPT ์๋๋ค.
์ด๋ฏธ์ง ์ ๋ ฅ ์ฒ๋ฆฌ๋ ์ด๋ป๊ฒ ํ์ฃ ? -> ๊ทธ๋์ ChatGPT ์๋๋ค.
ChatGPT ์ฐ๊ธฐ ์ซ์ด์ -> ToolFormer ๋ก ๊ฐ์ธ์
๊ธธ๊ณ ์์ธํ ๋ต๋ณ์ ์ํด 'think frame by frame'๊ณผ ๊ฐ์ ํ๋กฌํํธ ์ถ๊ฐ.
tool usage์ ๊ฒฝ์ฐ tool์ ๋ํ ์ค๋ช ์ถ๊ฐ.
Multimodal Chain-of-Thoughts
Chain-of-Thoughts
think step by step์ ๊ธฐ์ตํ์.
๋จ๋ฐ์ ๋ต์ ๋ด๋ฆฌ๋ ๊ฒ์ด ์๋๋ผ ๊ณผ์ ์ ๋จผ์ ์์ฑํ๊ณ , ๋ต์ ์์ฑํ๊ฒ ํ๋ค.
LLM์ ๊ณผ๊ฑฐ์ ์์ฑ ๊ฒฐ๊ณผ๋ค์ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ํ ํฐ์ ์์ฑํ๋ฏ๋ก, Reasoning์ LLM์ ์ฑํฅ์ ๋ง๊ฒ ์ ๋ฐ๊พผ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.
Chain Configuration
๋ฌด์กฐ๊ฑด N์คํ ์ reasoning ํ ๋ต์ ๋ธ๋ค(CoT-PT, ..)
๋ชจ๋ธ์ด ์์์ ์ ์ ์คํ ์ reasoning ํ ๋ต์ ๋ธ๋ค(MM-REACT, ...)
LLM-Aided Visual Reasoning
์ฌ๊ธฐ ์๊ฐ๋๋ ๋ ผ๋ฌธ๋ค์ ๋ชจ๋ธ๋ณด๋ค๋ ์์คํ ๋ ผ๋ฌธ์ ๊ฐ๊น๋ค.
์ฝ๊ฐ ์ด๋ฐ ์ ๋ค (์ฌ์ง์ HuggingGPT)

๋ฐ๋ผ์ ๋ฑํ ์๊ฐํ์ง๋ ์๊ฒ ์.
ํ๊ฐ
Closed-Set
์ ๋ต์ด ์๋ ๋ฐ์ดํฐ๋ผ๋ ๋ป.
ScienceQA๊ฐ ๊ฐ์ฅ ์ ๋ช ํ๋ค.
Open-Set
์ ๋ต์ ์๋ค.
๊ทธ๋ผ ํ๊ฐ๋ฅผ ์ด๋ป๊ฒ ํ์ฃ ? ChatGPT์๊ฒ ์ผ ์ด๊ฑฐ ๋ต ๋๋ณด๋ค ๋ซ๋? ๋ผ๊ณ ๋ฌผ์ด๋ด
ํ๊ฐ์ฉ ํ๋กฌํํธ๋ฅผ ์ด๋ป๊ฒ ์ง๋๋? ์ ๋ํ ๋ ผ๋ฌธ๋ค์ด ์์.
Discussion
์ฌ์ค ๋ ผ๋ฌธ์์ ์๊ณ ์ถ์๋ ๊ฒ์ ์ฃผ๋ก ์ด๋ค ๋ชจ๋ธ์ ์ฌ์ฉํ๋๊ฐ(์ธ์ด๋ชจ๋ธ=CausalLM์ธ๊ฒ์ฒ๋ผ), ์ด๋ค ๋ฐฉ์์ผ๋ก ํ์ตํ๋๊ฐ ๋๋์ด์๋๋ฐ ์๊ฐ๋ณด๋ค ๊ทธ ์ ๋ณด๊ฐ ๋ง์ง๋ ์์
๋์ github์ ๋ ผ๋ฌธ์ด ๋ง๊ณ ๊ทธ๊ฑธ ๋๋ ๊ฐ๋ฉฐ ์ฝ์ ์์
ChatGPT๋ฅผ ์์ฒญ๋๊ฒ ์ฐ๊ณ ChatGPT4๋ฅผ ์ง์ง ๋ง์ด ์ด๋ค. ๋ค๋ค ๋์ด ๋ง๋ค.
๋์ฒด๋ก LLM์ ํ์ต๊ฐ๋ฅํ ๋ ์ด์ด๋ฅผ ๋ถ์ด๊ณ ํ๋ํ๋ ๋ฐฉ์์ธ ๋ฏ ํ๋ค. ๊ณต๊ฐ๋ชจ๋ธ ํจ์ท์ ๊ฑฐ์ ์ ๋ฉธ์ ๊ฐ๊น์.
๋๋ถ๋ถ image-text์ด๊ณ ๊ฐ๊ฐํ video-text๊ฐ ๋ณด์ด๊ณ voice๋ ๊ฑฐ์ ์๋ค. voice๋ ์์ํ์ด text๋ณด๋ค๋ ์๋ฐฉํฅ ๊ฐ๋ฅํ ์ชฝ์ด ์์๊ฐ ๋ง์์ง ์ฌ๊ธฐ ๋ฒ์์ ๊ฑธ๋ฆฐ ๊ฑด ๋ง์ง ์์ ๋ณด์.
์บก์ ๋ ์์ข๋ค๋ ๋ง์ด ์ ๋ง์ ๋ง์ ๋ง ๋ง๋ค. ๋๋๋ก ์๋ฒ ๋ฉ์ ์ฌ์ฉํ ๊ฒ.
Last updated
