-
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models연구/논문리뷰 2024. 12. 14. 15:54
2024년 8월 27일 화요일 리뷰
- 개인 연구를 위해 논문을 리뷰한 내용입니다:)
https://arxiv.org/abs/2305.13655
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models
Recent advancements in text-to-image diffusion models have yielded impressive results in generating realistic and diverse images. However, these models still struggle with complex prompts, such as those that involve numeracy and spatial reasoning. This wor
arxiv.org

Diffusion Model 사용시, 그 전에 LLM layout을 하나 만들어 놓고 text로 이미지의 레이아웃을 구체적으로 text로 도출하고 이를 Diffusion Model에 집어넣으면 좀 더 완벽한 이미지가 생성된다는 논문이다.
그러나 이도 마찬가지로 오버헤드에 대한 의문점이 생기는 것같다.
LLM을 단순히 때려넣기 보다는 전체적인 모델의 무게나 성능을 고려해야할것 같은데... prompt에 대한 헤비함도 문제가 점점 생기는것 같아서 최근에는 prompt를 자동화 하거나 아예 없는 채로 LLM을 이용하는 연구도 진행하고 있는 것 같다.
'연구 > 논문리뷰' 카테고리의 다른 글