cleanUrl: "/judgebench"
floatFirstTOC: right
title: LLM 평가능력 측정 JudgeBench
description: LLM의 평가 능력을 측정할 수 있는 JudgeBench 제작 방법과 실험 결과를 소개합니다. LLM의 자동 평가 신뢰도는?
도입
- LLM은 자연어 형태의 글을 생성하므로 정답이 여러 가지 다양한 형태로 표현될 수 있어 자동으로 평가는 것은 어려운 문제임
- 이에 LLM이 가진 뛰어난 추론 능력을 활용하여 자동으로 평가하려는 LLM-as-a-judge에 대한 시도가 활발히 연구되고 있으며, 크게 LLM에 prompting을 입력하여 평가하는 시도와 튜닝을 통하여 평가 전용 모델을 만드는 시도 크게 2가지 접근 방법이 존재
- 그렇지만 모델의 자동 평가 결과를 얼마나 신뢰할 수 있는지를 정량적으로 측정할 수 있는 수단이 아직 부족함
- 이 아티클에서는 기존 벤치마크 데이터를 활용하여 LLM의 자동 평가 능력을 측정할 수 있는 JudgeBench를 생성하는 방법 및 이것을 활용하여 다양한 모델의 평가 능력을 측정한 결과에 대하여 소개함
- 리뷰 논문 : https://arxiv.org/abs/2410.12784 (by UC Berkeley, WashU)
개요
- 요약 : LLM의 평가 능력을 측정할 수 있는 데이터 구축 방법론을 제안하고 주요 LLM의 평가 능력을 측정
- 문체에 대한 유사성(stylistic alignment)보다는 사실적이고 논리적인 정확성(factual and logical correctness)을 기준으로 얼마나 정확히 평가할 수 있는지에 초점을 맞추어 평가 프레임워크를 설계 (그림 1)
- 기존의 벤치마크 데이터를 변형하여 정답과 정답을 살짝 변형한 오답 쌍을 생성하고 주요 LLM의 평가 능력을 측정함
- 그 결과 대부분의 LLM이 제대로 판단하기 힘든 난이도 높은 벤치마크 데이터를 구축함
JudgeBench 제작
-
총 4가지(지식, 추론, 수학, 코딩) 카테고리의 데이터를 바탕으로 생성
- MMLU-Pro (지식)
- LiveBench (추론, 수학)
- LiveCodeBench (코딩)
-
데이터 생성 파이프라인
- 주어진 문제에 대하여 LLM으로 답변을 k회 생성 후 각 답변의 정확도를 판단함
- k개의 답변이 모두 정답(너무 쉬운 문제)이거나, 모두 오답(너무 어려운 문제)인 케이스는 제거
- 즉, 최소 1개 이상의 정답과 1개 이상의 오답을 포함한 문제에 대하여 response pair를 구성하여 벤치마크 데이터로 활용
-
총 350개 질문 생성 : 지식(154), 추론(98), 수학(56), 코딩(42)