모델의 평가 능력을 평가하기

cleanUrl: "/judgebench"
floatFirstTOC: right
title: LLM 평가능력 측정 JudgeBench
description: LLM의 평가 능력을 측정할 수 있는 JudgeBench 제작 방법과 실험 결과를 소개합니다. LLM의 자동 평가 신뢰도는?

도입

LLM은 자연어 형태의 글을 생성하므로 정답이 여러 가지 다양한 형태로 표현될 수 있어 자동으로 평가는 것은 어려운 문제임
이에 LLM이 가진 뛰어난 추론 능력을 활용하여 자동으로 평가하려는 LLM-as-a-judge에 대한 시도가 활발히 연구되고 있으며, 크게 LLM에 prompting을 입력하여 평가하는 시도와 튜닝을 통하여 평가 전용 모델을 만드는 시도 크게 2가지 접근 방법이 존재
그렇지만 모델의 자동 평가 결과를 얼마나 신뢰할 수 있는지를 정량적으로 측정할 수 있는 수단이 아직 부족함
이 아티클에서는 기존 벤치마크 데이터를 활용하여 LLM의 자동 평가 능력을 측정할 수 있는 JudgeBench를 생성하는 방법 및 이것을 활용하여 다양한 모델의 평가 능력을 측정한 결과에 대하여 소개함
리뷰 논문 : https://arxiv.org/abs/2410.12784 (by UC Berkeley, WashU)

개요

스크린샷 2024-10-25 오후 6.18.52.png

요약 : LLM의 평가 능력을 측정할 수 있는 데이터 구축 방법론을 제안하고 주요 LLM의 평가 능력을 측정
문체에 대한 유사성(stylistic alignment)보다는 사실적이고 논리적인 정확성(factual and logical correctness)을 기준으로 얼마나 정확히 평가할 수 있는지에 초점을 맞추어 평가 프레임워크를 설계 (그림 1)
기존의 벤치마크 데이터를 변형하여 정답과 정답을 살짝 변형한 오답 쌍을 생성하고 주요 LLM의 평가 능력을 측정함
그 결과 대부분의 LLM이 제대로 판단하기 힘든 난이도 높은 벤치마크 데이터를 구축함

JudgeBench 제작

총 4가지(지식, 추론, 수학, 코딩) 카테고리의 데이터를 바탕으로 생성
- MMLU-Pro (지식)
- LiveBench (추론, 수학)
- LiveCodeBench (코딩)
데이터 생성 파이프라인
- 주어진 문제에 대하여 LLM으로 답변을 k회 생성 후 각 답변의 정확도를 판단함
- k개의 답변이 모두 정답(너무 쉬운 문제)이거나, 모두 오답(너무 어려운 문제)인 케이스는 제거
- 즉, 최소 1개 이상의 정답과 1개 이상의 오답을 포함한 문제에 대하여 response pair를 구성하여 벤치마크 데이터로 활용
총 350개 질문 생성 : 지식(154), 추론(98), 수학(56), 코딩(42)