cleanUrl: "/image_captioning"
floatFirstTOC: right
title: 이미지 캡셔닝의 이해 | Sionic AI
description: 이미지 캡셔닝이란 무엇일까요? 이 글에서는 이미지에서 문장을 생성하는 AI 기술의 원리와 응용을 쉽게 설명해드립니다.
드라마 ‘스타트업’에서는 눈이 보이지 않게 된 어머니를 위해 전경을 설명해 주는 AI가 등장한다. 이미지 캡셔닝(Image Captioning)은 이와 비슷하게 입력으로 사진이 들어가면 출력으로 그 사진에 있는 이미지를 바탕으로 자연어 문장을 생성하는 작업을 의미한다.
이미지가 사용되기 때문에 이미지의 해상도와 이미지 내에 있는 정보의 구조적 전달을 위한 언어 모델의 성능이 모두 중요한 과제라고 할 수 있다. 최근 CVPR 2024 NICE 이미지 캡셔닝 챌린지에서는 Shutterstock의 이미지를 대상으로 EVA-CLIP 모델과 Adaption Re-ranking 방법을 사용하여 이미지-캡션 쌍의 품질을 향상시킨 결과를 보고하기도 했다.
사람의 눈과 같은 역할을 한 비전 모델이 이미지의 주요 정보를 읽어 오면 언어 모델은 이미지의 내용을 설명하게 된다. 다음은 (주)teddysum에서 공개한 이미지에 대한 예시이다.