cleanUrl: "/benchmark-llm"
floatFirstTOC: right
title: AI 추론평가의 진화와 과제 | NLP
description: AI의 추론 능력은 어떻게 평가되고 있을까요? 자연어 이해부터 생성까지, AI 평가 방법의 발전 과정과 현재 과제를 살펴봅니다.

(이미지 출처) Microsoft Designer - Stunning  designs in a flash 를 사용하여 자동 생성 후 편집

(이미지 출처) Microsoft Designer - Stunning designs in a flash 를 사용하여 자동 생성 후 편집

창밖에서 ‘무엇인가가 불에 타고 있는 것과 같은 냄새’가 난다면 우리는 모든 감각 기관을 동원하여 진짜 불이 난 것인지 아니면 다른 냄새인지 등의 사실을 파악하려고 할 것이다. AI는 아직 다양한 감각 기관을 가지고 있지는 않지만 ‘제가 있는 곳에 불이 난 것 같아요. 창밖에서 이상한 냄새가 들어와요 ’라는 메시지가 입력된다면 그에 대한 안전한 대응책을 출력해야 한다. ChatGPT에게 물어보면 다음과 같이 정형화된 답변을 출력하는 것을 확인할 수 있다.

Screenshot 2024-04-29 at 11.11.42 AM.png

그러나 ‘창밖에서 냄새가 난다’와 ‘화재가 발생했다’는 항상 대응짝이 될 수 있는 문장일까? 또한 ‘창밖에서 냄새가 난다’와 ‘대피해야 한다’ 는 어떠한가? 사람은 서로 다른 상황들을 잘 연결하기도 하고 혹시 잘못 연결되었다는 것을 깨닫는다면 연결을 수정하기도 한다. 하지만 AI의 경우에는 스스로 이와 같이 학습된 사실을 수정하는 것은 아직 어려운 일 중에 하나이다. 따라서 사람이 AI이 학습이 잘 되어 있는지 확인하면서 사실들 간에 연결을 잘 하고 있는지 확인하고 문제가 발견되면 그 대응책을 세우게 된다. 이렇게 AI의 능력 중에 하나의 사실이나 판단에서 다른 사실 또는 판단을 연결시키는 영역을 추론 능력이라고 한다.

인공지능의 추론은 중요한 문제이기 때문에 추론의 영역을 ‘reasoning’에 해당하는 추론과 ‘inference’에 해당하는 추론으로 나누기도 한다. 이를 평가에 영역에서는 인과 추론(causal reasoning)평가와 자연어 추론(natural language inference) 평가로 구분한다. 이때 , 아는 것(전제)을 바탕으로 모르는 것(가설)을 찾아가는 추론 방식을 자연어 추론이라 하고, 관찰한 것으로부터 숨은 변수(화자의 의도 파악 등)가 무엇인가를 파악하는 것을 인과 추론이라고 하여 구분한다.

자연어 이해 영역에서 추론 과제는 주로 분류(가령, 하나의 문장과 다른 문장의 관계가 비슷하다(1)/비슷하지 않다(0) 과 같이 분류)에서 다루어졌다.

자연어 이해 영역에서 추론

종류 사용 언어 과제 상세 데이터 크기(단위: k) Metric 주석 대상 데이터
훈련 세트 검증 세트 시험 세트
GLUE 영어 MNLI 393 20 20 정확성 misc.
RTE 2.5 0.28 3 정확성 news, Wikipedia
QNLI 105 5.5 5.5 정확성 Wikipedia
WNLI 0.6 0.07 0.14 정확성 fiction books
SuperGLUE 영어 CB 250 57 250 정확성/ F1 Wall Street Journal, fiction
RTE 3 0.28 0.3 정확성 news, Wikipedia
FLUE 불어 XNLI 393 2 5 정확성 Diverse genres
IndoNLU 인도네시아어 WReTE 300 50 100 F1 wiki
JGLUE 일본어 Classification JNLI 20 2 3 정확성 SNLI(Stanford
NLI) 기계번역 데이터
Russian
SuperGLUE 러시아어 TERRa 3 0.3 3 정확성 Russian webcorpus
러시아어 RCB 0.4 0.2 0.3 정확성/ F1 Russian webcorpus
KLUE 한국어 KLUE-NLI 25 3 3 정확성 WIKITREE, POLICY, WIKINEWS, WIKIPEDIA, NSMC, AIRBNB

자연어 생성 영역에서 추론

자연어 생성 영역에서의 추론은 모델이 추론한 결과를 바탕으로 작성한 글의 평가를 자동화하는 영역이다. 2022년에 일반상식 문장 교정 데이터를 보면 단어를 기반으로 사람과 모델이 만든 문장을 문법성(grammar), 사실성(reality), 유창성(fluency), 다양성(diversity)의 네 가지 속성에 따라 3점 리커트 척도로 채점했다.

sentence_words 작성 주체 label-scenes grammar reality fluency diversity
15 사람이 생성한 문장 관할 부처는 인근 저수지의 오염을 막기 위해 단속에 나선다. 2 2 2 2
12 KoBART가 생성한 문장 아기가 주전자에서 빠졌다는 신고를 엄마에게 받았다. 1 1 0 2

사람이 생성한 문장인 ‘관할 부처는 인근 저수지의 오염을 막기 위해 단속에 나선다.’의 경우 전체적으로 모두 좋은 평가를 받았지만 KoBART모델이 만든 ‘아기가 주전자에서 빠졌다는 신고를 엄마에게 받았다.’는 문장은 의미 파악이 어렵다.

최근에는 생성 모델의 대화가 더 길어지고 더 전문적인 내용으로 발화하기를 바라는 요구가 많아지면서 평가에서도 두 턴 이상의 대화(하나의 대화와 후속 대화로 이루어짐, Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena ), 쓰기와 지식을 바탕으로 한 추론 능력과 같은 종합적 능력을 실험하고 있다.