문자가 포함된 이미지 기반 문장 생성(이미지 캡셔닝)의 이해

cleanUrl: "/image_captioning"
floatFirstTOC: right
title: 이미지 캡셔닝의 이해 | Sionic AI
description: 이미지 캡셔닝이란 무엇일까요? 이 글에서는 이미지에서 문장을 생성하는 AI 기술의 원리와 응용을 쉽게 설명해드립니다.

배경

드라마 ‘스타트업’에서는 눈이 보이지 않게 된 어머니를 위해 전경을 설명해 주는 AI가 등장한다. 이미지 캡셔닝(Image Captioning)은 이와 비슷하게 입력으로 사진이 들어가면 출력으로 그 사진에 있는 이미지를 바탕으로 자연어 문장을 생성하는 작업을 의미한다.

주요 데이터

MS COCO (Microsoft Common Objects in Context)
- 약 33만 개의 이미지와 5개의 캡션이 제공되고 이미지 캡셔닝 연구에 가장 널리 사용되는 데이터 세트이다.
Flickr30k 및 Flickr8k
- Flickr30k는 31,000개, Flickr8k는 8,000개의 Flickr에서 수집한 이미지와 각 이미지당 5개의 캡션이 제공된다.
Visual Genome
- 이미지의 안에 있는 세부 객체 간의 관계와 속성 정보가 제공된다.
VizWiz-Captions
- 시각 장애인들이 촬영한 약 39,000개의 이미지로 구성되어 있으며, 각 이미지에 5개의 캡션이 제공된다.
Conceptual Captions
- 웹에서 수집한 대규모 이미지-캡션 쌍으로 구성된 데이터 세트이다.

주요 과제와 입출력 형식

이미지가 사용되기 때문에 이미지의 해상도와 이미지 내에 있는 정보의 구조적 전달을 위한 언어 모델의 성능이 모두 중요한 과제라고 할 수 있다. 최근 CVPR 2024 NICE 이미지 캡셔닝 챌린지에서는 Shutterstock의 이미지를 대상으로 EVA-CLIP 모델과 Adaption Re-ranking 방법을 사용하여 이미지-캡션 쌍의 품질을 향상시킨 결과를 보고하기도 했다.

한국어에서 문자가 포함된 이미지 기반 문장 생성(이미지 캡셔닝) 과제

사람의 눈과 같은 역할을 한 비전 모델이 이미지의 주요 정보를 읽어 오면 언어 모델은 이미지의 내용을 설명하게 된다. 다음은 (주)teddysum에서 공개한 이미지에 대한 예시이다.

2인승_umbrella.png