Page cover

A Survey on Multimodal Large Language Models

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models?tab=readme-ov-file

arXiv Github

Description

Summary

  • ChatGPT the GOAT

  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ-LLM์— ๋Œ€ํ•œ ์„œ๋ฒ ์ด ๋…ผ๋ฌธ

  • ๊นƒํ—ˆ๋ธŒ์— ์„ ๋ณ„๋œ ๋…ผ๋ฌธ๋“ค ๋ฐ ๋ฐ์ดํ„ฐ / ๋ฒค์น˜๋งˆํฌ๊ฐ€ ์˜ฌ๋ผ์™€์žˆ์Šต๋‹ˆ๋‹ค ๐Ÿ‘์ธ„๋ผ์ด

  • ํ•™์Šต ์•ˆํ•˜๋Š” ๋…ผ๋ฌธ์€ ๋Œ€์ฒด๋กœ ChatGPT(3.5, 4) / GPT3์„ ์‚ฌ์šฉ(๋ฉ”ํƒ€๋Š” ๋ผ๋งˆ70B)

    • ํ•™์Šต๋…ผ๋ฌธ๋„ ๋ฐ์ดํ„ฐ ๋งŒ๋“œ๋Š”๋ฐ๋Š” ๋‹ค ChatGPT(3.5, 4)๋ฅผ ์‚ฌ์šฉ. ์ตœ์‹ ๋…ผ๋ฌธ์€ ๋‹ค 4์ธ๋ฐ ์ด๋ฏธ์ง€ ์‚ฌ์šฉ ์ธํผ๋Ÿฐ์Šค๋ผ ๋ˆ์ด ์—„์ฒญ ๋“ค์—ˆ์„ ๊ฒƒ์œผ๋กœ ์ถ”์ •...

  • Vision embedding์—์„œ๋Š” ViT๋ฅผ ๋Œ€๋ถ€๋ถ„ ์“ฐ๋„ค์š”.


Introduction

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ์„ ์“ฐ๋ฉด ์ข‹์€ ์ ?

์‚ฌ๋žŒ์€ ์‹œ๊ฐ, ์ฒญ๊ฐ์„ ๊ฐ™์ด ํ™œ์šฉํ•˜์—ฌ ์ดํ•ดํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ๋žŒ๊ณผ ๋” ์œ ์‚ฌํ•œ ์‚ฌ๊ณ ๋ฅผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์‚ฌ์šฉ ์‹œ ๋ณด๋‹ค ๋†’์€ ์ž์œ ๋„๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ๋” ๋งŽ์€ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด์˜ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ๊ณผ์˜ ๋น„๊ต

๊ณผ๊ฑฐ ๋…ผ๋ฌธ(https://arxiv.org/pdf/1707.07998.pdf)์„ ์ฐธ๊ณ ํ•˜๋ฉด, ๊ธฐ์กด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ชจ๋ธ์€ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ๊ณผ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์„ ๊ฐ€์ง€๊ณ  attention์„ ๊ตฌํ•ด ์ •๋‹ต ๋‹จ์–ด๋ฅผ ๊ตฌํ•˜๋Š” ํ˜•์‹์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.

ํ˜„์žฌ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๊ตฌ์กฐ๋„ ์ด์™€ ์œ ์‚ฌํ•˜๊ฒŒ ์ด๋ฏธ์ง€ ์ž„๋ฒ ๋”ฉ๊ณผ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์„ ๊ฐ€์ง€๊ณ  ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•จ. ๊ทธ๋Ÿฌ๋‚˜ ๋‹ต๋ณ€ ์ƒ์„ฑ ์‹œ ๋” ๊ธธ๊ณ  ์ž์„ธํ•œ ๋‹ต๋ณ€์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๊ณ  reasoning์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ์ฐจ์ด์ ์ด ์žˆ๋‹ค. ์ด๋Š” ์–ธ์–ด ๋ชจ๋ธ์˜ ๋ณ€ํ™”๋กœ ์ธํ•ด ๋‹ต๋ณ€์ด ์ƒ์„ฑํ˜•์œผ๋กœ ๋ณ€ํ–ˆ๋‹ค๋Š” ์ ๊ณผ, ์ด๋ฏธ์ง€ ๋ชจ๋ธ๊ณผ ์–ธ์–ด ๋ชจ๋ธ์˜ ๊ธ‰๊ฒฉํ•œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ๊ธฐ์ธํ•œ๋‹ค. ChatGPT ๋“ฑ์žฅ

์ด ๋…ผ๋ฌธ์ด ๋‹ค๋ฃจ๋Š” ๋ฒ”์œ„

  • Multimodal LLM์ด๋ฏ€๋กœ ํ…์ŠคํŠธ ๋ฐ˜๋“œ์‹œ ํฌํ•จ

  • Multimodal์€ ์ด๋ฏธ์ง€, ์Œ์„ฑ, ๋น„๋””์˜ค ๋“ฑ์ด ํฌํ•จ

  • ์‘๋‹ต์ด ํ…์ŠคํŠธ

  • LLM์ด ๋ฒ ์ด์Šค - ๋น„์ „ ๋ชจ๋ธ ๋ฒ ์ด์Šค์ธ๋ฐ ํ…์ŠคํŠธ๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค! ๋Š” ์ œ์™ธ

  • Task Finetuning์€ ์ œ์™ธํ–ˆ์Œ (๋ฐ‘์˜ ์ด๋ฏธ์ง€)

์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์ •๋ง ํฐ ๊ฐ€์ง€๋งŒ์„ ์„ค๋ช…ํ•˜๊ณ  ์žˆ๊ณ , ์ž์„ธํ•œ implementation detail์— ๋Œ€ํ•ด์„œ๋Š” ๋‹ค๋ฃจ๊ณ  ์žˆ์ง€ ์•Š์Œ(์ฃผ๋กœ ์–ด๋–ค ๋ชจ๋ธ์„ ์“ฐ๋Š”์ง€?) ๊ฐ๊ฐ์˜ ๋…ผ๋ฌธ์— ๋Œ€ํ•ด ๋งŽ์ด ์„ค๋ช…ํ•˜๊ณ  ์žˆ์ง€๋„ ์•Š์Œ............

Method

Multimodal Instruction Tuning (M-IT)

Instruction Tuning

  • ์ง€์‹œ - ์‘๋‹ต ์˜ ํ˜•์‹์œผ๋กœ ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ(PLM)์— ํ•™์Šต์‹œํ‚ด.

    • PLM์˜ ๊ฒฝ์šฐ ๋‹จ์ˆœํžˆ '๋‹ค์Œ ๋‹จ์–ด ์ƒ์„ฑ'์„ ๋ชฉ์ ์œผ๋กœ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ทธ๋ƒฅ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํฌ๋งท์—†์ด ์ง‘์–ด๋„ฃ๋Š” ๋А๋‚Œ. ๋”ฐ๋ผ์„œ ์งˆ๋ฌธ์„ ์ž…๋ ฅ์œผ๋กœ ์ฃผ๋ฉด ์ด์ƒํ•œ ๋ง์„ ํ•  ์ˆ˜๋„ ์žˆ์Œ ์˜ค๋Š˜ ์ ์‹ฌ ๋ญ์•ผ -> ์˜ค๋Š˜ ์ ์‹ฌ ๋ญ์•ผ ์˜ค๋Š˜ ์ €๋… ๋ญ์•ผ ๋‚ด์ผ ์ ์‹ฌ ๋ญ์•ผ ๋‚ด์ผ ์ €๋… ๋ญ์•ผ...

    • Instruction ๋ฐ์ดํ„ฐ๋Š” ์ง€์‹œ-์‘๋‹ต ํ˜•์‹์œผ๋กœ ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ผ๋ฐ˜์ ์œผ๋กœ ํŠน์ • ํฌ๋งท์— ๋งž์ถฐ์„œ ํ•™์Šต์‹œํ‚ค๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ์ด ์•„! ๋‚˜ ๋Œ€๋‹ตํ• ์ฐจ๋ก€ ํ•˜๊ณ  ๋Œ€๋‹ตํ•จ.

      • ๋ชจ๋ฅด๋Š” ์ง€์‹œ๋ฌธ์ด ๋‚˜์˜ค๋ฉด PLM์ฒ˜๋Ÿผ ๋˜ ๋ป˜์ง“ํ•จ. ๋”ฐ๋ผ์„œ ์ง€์‹œ๋ฌธ์˜ ์–‘์ด ๋งŽ๊ณ , ์ข…๋ฅ˜๊ฐ€ ๋งŽ๊ณ , ๋‹ต๋ณ€๋„ ์ƒ์„ธํ•˜๊ณ  ์ง€์‹œ๋ฅผ ์ž˜ ๋”ฐ๋ฅผ์ˆ˜๋ก ์ข‹์€ ๋ฐ์ดํ„ฐ.

Multimodal Instruction Tuning

์ง€์‹œ-์‘๋‹ต ์ค‘ '์ง€์‹œ' ๋ถ€๋ถ„์— ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ฐ™์ด ๋“ค์–ด๊ฐ.

<๊ท€์—ฌ์šด ๊ณ ์–‘์ด ์‚ฌ์ง„>์–˜ ์ด๋ฆ„์ง€์–ด์ค˜ -> ๋ฐœ๊พธ๋ฝ์ด ํ•˜์–€ ๊ฑธ ๋ณด๋‹ˆ ์–‘๋ง์„ ์‹ ์€ ๊ฒƒ ๊ฐ™๋„ค์š”. '์–‘๋ง์ด' ์–ด๋–จ๊นŒ์š”?

<๊ฒŒ์ž„ ๋™์˜์ƒ>๋ช‡๋ฒˆ์ฃฝ์—ˆ์Œ? -> 1:10, 1:14, 1:15, 1:16, 2:21, 2:35, 3:46, 3:47, 5:55, 5:56, 6:01, 6:02, 6:04์—์„œ ์ฃฝ์—ˆ์œผ๋‹ˆ ์ด 13๋ฒˆ ์ฃฝ์—ˆ๋„ค์š”!

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ํŠœ๋‹์—์„œ ์ค‘์š”ํ•œ ๊ฒƒ์€ ๋‹ค์Œ ๋‘ ๊ฐ€์ง€๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Œ.

  1. ์–ด๋–ป๊ฒŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ instruction๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค๊นŒ? ํด๋ฆฝ์ด ์—…๋ฐ์ดํŠธ ์•ˆ ๋˜๋Š” ๊ฑธ ๋ณด๋ฉด ์•Œ๊ฒ ์ง€๋งŒ.... ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ์ ์Œ. ๋”ฐ๋ผ์„œ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๋ฅผ ์šฐ์„ ์ ์œผ๋กœ ๋Š˜๋ ค์•ผ ๋˜๊ณ , instruction๋„ ๋‹ค์–‘ํ•ด์•ผ ๋˜๊ณ , ๋‹ต๋ณ€ ๊ธธ์ด๋„ ๋‹จ๋‹ต์ด ์•„๋‹ˆ์–ด์•ผ ๋จ!

  2. ์–ด๋–ป๊ฒŒ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ •๋ณด๋ฅผ ์–ธ์–ด ๋ชจ๋ธ์ด ์ดํ•ดํ•˜๊ฒŒ ํ• ๊นŒ? ์ด๋ฏธ์ง€ / ์Œ์„ฑ / ๋™์˜์ƒ ๋“ฑ์˜ feature๋ฅผ ์–ธ์–ด ๋ชจ๋ธ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•ด์•ผ ํ•œ๋‹ค. ๊ฐ€์žฅ ๊ฐ„๋‹จํ•˜๊ฒŒ๋Š” ์ด๋ฏธ์ง€ ์บก์…”๋‹์„ ์จ์„œ ์ด๋ฏธ์ง€ -> ํ…์ŠคํŠธ๋กœ ๋งŒ๋“  ๋‹ค์Œ์— ์–ธ์–ด ๋ชจ๋ธ์— ๋จน์ด๋Š” ๊ฒƒ(ํ•˜์ˆ˜)

๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด๋ณด์ž

๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ๋กœ ๋งŒ๋“ค์–ด๋ณด์ž

  • ๋ฒค์น˜๋งˆํฌ ๋ฐ์ดํ„ฐ๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ํ’ˆ์งˆ์ด ์–ด๋А์ •๋„ ๋ณด์žฅ๋œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์–ด์„œ ์‚ฌ์šฉํ•˜๊ธฐ ์ข‹๋‹ค.

    • ์ด๋ฏธ์ง€: ์ด๋ฏธ์ง€+์บก์…˜ ์ƒ์„ฑ / ์ด๋ฏธ์ง€+OD๋กœ object๋ฅผ ๊ฐ€์ ธ์™€์„œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ๋งŒ๋“ค๊ธฐ

    • ์Œ์„ฑ: ์Œ์„ฑ-ํ…์ŠคํŠธ ํŽ˜์–ด ๊ทธ๋ƒฅ ๊ฐ€์ ธ๋‹ค ์“ฐ๋ฉด ๋จ.

    • ๋™์˜์ƒน: ํ”„๋ ˆ์ž„-์Œ์„ฑ-์ž๋ง‰ ํŽ˜์–ด๋ฅผ ์‚ฌ์šฉํ•ด์„œ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ ๋งŒ๋“ค๊ธฐ. ํ˜น์€ ํ”„๋ ˆ์ž„์—์„œ ์œ„์˜ ์ด๋ฏธ์ง€ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด์„œ ๊ฐ™์ด ์‚ฌ์šฉํ•˜๊ธฐ๋„ ํ•œ๋‹ค.

  • Augmentation

    • ๋ฐ”๋กœ ์‚ฌ์šฉํ•˜๊ธฐ์—๋Š” ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ+๊ฐ„๋‹จํ•œ์งˆ๋ฌธ->๋‹จ๋‹ต์œผ๋กœ ์ด๋ฃจ์–ด์ ธ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์•ฝ๊ฐ„์˜ ํŠธ๋ฆญ์„ ์„ž์Œ (LLaVA, MiniGPT-4, GPT4Tools, ...)

    • ๋‹จ๋‹ต์„ ๋ณด๊ณ  ๊ธด ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๊ฒŒ ์‹œํ‚ค๊ธฐ(ChatGPT)

    • ์งˆ๋ฌธ ๋Œ€๋‹ต ๋‘˜ ๋‹ค ์ƒ์„ฑํ•˜๊ฒŒ ์‹œํ‚ค๊ธฐ(ChatGPT)

    • ๋Œ€๋‹ต์— reasoning์„ ํ•˜๊ฒŒ ์‹œํ‚ค๊ธฐ(ChatGPT)

ํ…์ŠคํŠธ ์˜จ๋ฆฌ ๋ฐ์ดํ„ฐ + ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ ์“ฐ๊นŒ (LaVIN, MultiInstruct)

  • ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ํ…์ŠคํŠธ๋กœ๋งŒ ์งˆ๋ฌธํ•ด๋„ ๋Œ€๋‹ตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋จ.

  • MultiInstruct ์™ˆ ๋ถ€๋ถ„์ ์œผ๋กœ ์„ž์–ด๋„ ์„ฑ๋Šฅ์ด ๊ทธ๋ ‡๊ฒŒ ๋–จ์–ด์ง€์ง„ ์•Š๋Š”๋‹ค.

๋ชจ๋ธ์ด ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ์„ ์ดํ•ดํ•˜๊ฒŒ ํ•ด๋ณด์ž

Using Experts (VideoChat-Text)

  • ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒŒ ์•„๋‹ˆ๊ณ , ์ƒ์„ฑ ์Šคํ…์—์„œ metadata๋ฅผ ์ค„ experts๊ฐ€ ๋“ค์–ด๊ฐ„๋‹ค. ์บก์…˜ ์ •๋ณด๊ฐ€ ํ…์ŠคํŠธ ์ƒ์„ฑ ์‹œ ์ถ”๊ฐ€๋กœ ์ฃผ์–ด์ง„๋‹ค๋˜๊ฐ€...

  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ๋ฐ์ดํ„ฐ๊ฐ€ ์ง์ ‘์ ์œผ๋กœ ์–ธ์–ด๋ชจ๋ธ์— ๋“ค์–ด๊ฐ€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ์„œ information loss๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.

Learnable Parameter (LLaVA, MedVIn-T, Flamingo, BLIP-2 ..)

  • ์ด๋ฏธ์ง€๋Š” embedding์ด ํ…์ŠคํŠธ๋ณด๋‹ค ํ›จ์”ฌ ํฌ๋‹ˆ๊นŒ projection layer๋ฅผ ๋งŒ๋“ค์–ด ํ•™์Šต์‹œํ‚ค์ž!

  • ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ embedding์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€ ํ•™์Šต ๊ฐ€๋Šฅ ์ž„๋ฒ ๋”ฉ/๋ ˆ์ด์–ด๋ฅผ ๋งŒ๋“ค์ž!

  • ์ถ”๊ฐ€ ๋ ˆ์ด์–ด ๋ง๊ณ  ๊ทธ๋ƒฅ ์ ์€ ํŒจ๋Ÿฌ๋ฏธํ„ฐ๋งŒ ํŠœ๋‹(=lora๋“ฑ)ํ•˜๋ฉด ๋œ๋‹ค! (LLaMA-Adapter, LaVIN)

Multimodal In-Context Learning

In-Context Learning

  • ํ“จ์ƒท/์ œ๋กœ์ƒท์„ ์˜ˆ์˜๊ฒŒ ์“ด ๋ง.

in-context learning์—์„œ ์ค‘์š”ํ•œ ๊ฒƒ์€ ๋‹ค์Œ ๋‘ ๊ฐ€์ง€์ด๋‹ค. ๋ชจ๋ธ์˜ ๋Šฅ๋ ฅ๋„ ๋‹น์—ฐํžˆ ์ค‘์š”ํ•˜์ง€๋งŒ, ์• ์ดˆ์— ๋ชจ๋ธ์ด ๊ตฌ๋ฆฌ๋ฉด ICL์ž์ฒด๊ฐ€ ๋˜์ง€๋ฅผ ์•Š์œผ๋‹ˆ ๋…ผ์™ธ. ๊ทธ๋ž˜์„œ ์ด ๊ตฌ๊ฐ„์—์„œ ์†Œ๊ฐœ๋œ ๋…ผ๋ฌธ๋“ค์€ ๋Œ€๋ถ€๋ถ„ ChatGPT๋ฅผ ์“ด๋‹ค.

  1. ์ƒ˜ํ”Œ ํ€„๋ฆฌํ‹ฐ

  2. ํ”„๋กฌํ”„ํŠธ

ํ“จ์ƒท์€ ํ”„๋กฌํ”„ํŠธ๊ฐ€ ์กฐ๊ธˆ ๊ตฌ๋ ค๋„ ์ƒ˜ํ”Œ์ด ๊ดœ์ฐฎ์œผ๋ฉด ์ž˜ ํ•˜๋Š” ํŽธ / ์ œ๋กœ์ƒท์€ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์—„์ฒญ๋‚˜๊ฒŒ ๋งŒ์ ธ์•ผ ํ•œ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ž„๋ฒ ๋”ฉ ์ฒ˜๋ฆฌ๋Š” ์–ด๋–ป๊ฒŒ ํ•˜์ฃ ? -> ๊ทธ๋ž˜์„œ ChatGPT ์”๋‹ˆ๋‹ค.

์ด๋ฏธ์ง€ ์ž…๋ ฅ ์ฒ˜๋ฆฌ๋Š” ์–ด๋–ป๊ฒŒ ํ•˜์ฃ ? -> ๊ทธ๋ž˜์„œ ChatGPT ์”๋‹ˆ๋‹ค.

ChatGPT ์“ฐ๊ธฐ ์‹ซ์–ด์š” -> ToolFormer ๋กœ ๊ฐ€์„ธ์š”

  • ๊ธธ๊ณ  ์ž์„ธํ•œ ๋‹ต๋ณ€์„ ์œ„ํ•ด 'think frame by frame'๊ณผ ๊ฐ™์€ ํ”„๋กฌํ”„ํŠธ ์ถ”๊ฐ€.

  • tool usage์˜ ๊ฒฝ์šฐ tool์— ๋Œ€ํ•œ ์„ค๋ช… ์ถ”๊ฐ€.

Multimodal Chain-of-Thoughts

Chain-of-Thoughts

  • think step by step์„ ๊ธฐ์–ตํ•˜์ž.

  • ๋‹จ๋ฐ•์— ๋‹ต์„ ๋‚ด๋ฆฌ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๊ณผ์ •์„ ๋จผ์ € ์ƒ์„ฑํ•˜๊ณ , ๋‹ต์„ ์ƒ์„ฑํ•˜๊ฒŒ ํ•œ๋‹ค.

  • LLM์€ ๊ณผ๊ฑฐ์˜ ์ƒ์„ฑ ๊ฒฐ๊ณผ๋“ค์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ƒˆ๋กœ์šด ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋ฏ€๋กœ, Reasoning์„ LLM์˜ ์„ฑํ–ฅ์— ๋งž๊ฒŒ ์ž˜ ๋ฐ”๊พผ ๊ฒƒ์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค.

Chain Configuration

  • ๋ฌด์กฐ๊ฑด N์Šคํ…์˜ reasoning ํ›„ ๋‹ต์„ ๋‚ธ๋‹ค(CoT-PT, ..)

  • ๋ชจ๋ธ์ด ์•Œ์•„์„œ ์ ์ • ์Šคํ…์˜ reasoning ํ›„ ๋‹ต์„ ๋‚ธ๋‹ค(MM-REACT, ...)

LLM-Aided Visual Reasoning

์—ฌ๊ธฐ ์†Œ๊ฐœ๋˜๋Š” ๋…ผ๋ฌธ๋“ค์€ ๋ชจ๋ธ๋ณด๋‹ค๋Š” ์‹œ์Šคํ…œ ๋…ผ๋ฌธ์— ๊ฐ€๊น๋‹ค.

์•ฝ๊ฐ„ ์ด๋Ÿฐ ์• ๋“ค (์‚ฌ์ง„์€ HuggingGPT)

๋”ฐ๋ผ์„œ ๋”ฑํžˆ ์†Œ๊ฐœํ•˜์ง€๋Š” ์•Š๊ฒ ์Œ.

ํ‰๊ฐ€

Closed-Set

  • ์ •๋‹ต์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ๋ผ๋Š” ๋œป.

  • ScienceQA๊ฐ€ ๊ฐ€์žฅ ์œ ๋ช…ํ•˜๋‹ค.

Open-Set

  • ์ •๋‹ต์€ ์—†๋‹ค.

  • ๊ทธ๋Ÿผ ํ‰๊ฐ€๋ฅผ ์–ด๋–ป๊ฒŒ ํ•˜์ฃ ? ChatGPT์—๊ฒŒ ์•ผ ์ด๊ฑฐ ๋‹ต ๋„ˆ๋ณด๋‹ค ๋‚ซ๋ƒ? ๋ผ๊ณ  ๋ฌผ์–ด๋ด„

    • ํ‰๊ฐ€์šฉ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์–ด๋–ป๊ฒŒ ์งœ๋А๋ƒ? ์— ๋Œ€ํ•œ ๋…ผ๋ฌธ๋“ค์ด ์žˆ์Œ.

Discussion

  • ์‚ฌ์‹ค ๋…ผ๋ฌธ์—์„œ ์•Œ๊ณ  ์‹ถ์—ˆ๋˜ ๊ฒƒ์€ ์ฃผ๋กœ ์–ด๋–ค ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š”๊ฐ€(์–ธ์–ด๋ชจ๋ธ=CausalLM์ธ๊ฒƒ์ฒ˜๋Ÿผ), ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ํ•™์Šตํ•˜๋Š”๊ฐ€ ๋А๋‚Œ์ด์—ˆ๋Š”๋ฐ ์ƒ๊ฐ๋ณด๋‹ค ๊ทธ ์ •๋ณด๊ฐ€ ๋งŽ์ง€๋Š” ์•Š์Œ

  • ๋Œ€์‹  github์— ๋…ผ๋ฌธ์ด ๋งŽ๊ณ  ๊ทธ๊ฑธ ๋‚˜๋ˆ  ๊ฐ€๋ฉฐ ์ฝ์„ ์˜ˆ์ •

  • ChatGPT๋ฅผ ์—„์ฒญ๋‚˜๊ฒŒ ์“ฐ๊ณ  ChatGPT4๋ฅผ ์ง„์งœ ๋งŽ์ด ์“ด๋‹ค. ๋‹ค๋“ค ๋ˆ์ด ๋งŽ๋‹ค.

  • ๋Œ€์ฒด๋กœ LLM์— ํ•™์Šต๊ฐ€๋Šฅํ•œ ๋ ˆ์ด์–ด๋ฅผ ๋ถ™์ด๊ณ  ํŠœ๋‹ํ•˜๋Š” ๋ฐฉ์‹์ธ ๋“ฏ ํ•˜๋‹ค. ๊ณต๊ฐœ๋ชจ๋ธ ํ“จ์ƒท์€ ๊ฑฐ์˜ ์ „๋ฉธ์— ๊ฐ€๊นŒ์›€.

  • ๋Œ€๋ถ€๋ถ„ image-text์ด๊ณ  ๊ฐ„๊ฐ„ํžˆ video-text๊ฐ€ ๋ณด์ด๊ณ  voice๋Š” ๊ฑฐ์˜ ์—†๋‹ค. voice๋Š” ์•„์›ƒํ’‹์ด text๋ณด๋‹ค๋Š” ์–‘๋ฐฉํ–ฅ ๊ฐ€๋Šฅํ•œ ์ชฝ์ด ์ˆ˜์š”๊ฐ€ ๋งŽ์€์ง€ ์—ฌ๊ธฐ ๋ฒ”์œ„์— ๊ฑธ๋ฆฐ ๊ฑด ๋งŽ์ง€ ์•Š์•„ ๋ณด์ž„.

  • ์บก์…”๋‹ ์•ˆ์ข‹๋‹ค๋Š” ๋ง์ด ์ •๋ง์ •๋ง์ •๋ง ๋งŽ๋‹ค. ๋˜๋„๋ก ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉํ•  ๊ฒƒ.

Last updated