cleanUrl: "/prompt-recovery"
floatFirstTOC: right
title: "LLM 프롬프트 복원 기술 동향"
description: "LLM의 출력 결과만으로 입력 프롬프트를 자동으로 복원하는 방법을 소개합니다. DORY 방법론을 중심으로 최신 연구 동향을 살펴보세요."
도입
- In-context Learning 능력을 활용하여 LLM을 다양한 태스크에 손쉽게 활용할 수 있음
- 그렇지만 모델의 생성 결과가 입력 프롬프트에 따라 매우 민감하며, 따라서 일반적으로 원하는 결과를 얻기 위하여 trial-and-error 방식으로 사람이 수동으로 제작하는 것이 일반적
- 만약 LLM의 생성 결과를 토대로 해당 결과가 나올 수 있도록 입력 프롬프트를 복원 수 있다면 프롬프트 생성 과정이 훨씬 효율적일 것으로 예상
- 이 아티클에서는 모델 Checkpoint에 대한 접근이 불가능한 경우에도 Output 텍스트와 토큰별 확률 값만을 활용하여 입력 프롬프트를 복원할 수 있는 방법을 소개함
- 리뷰 논문 : https://arxiv.org/abs/2405.20657 (by Zhejiang University)
개요

- 한줄요약 : 모델의 생성 결과 텍스트와 각 토큰별 확률 값을 잘 활용해서 원본 입력 프롬프트를 복원하는 문제에 적용했더니 뛰어난 성능을 보인다는 내용
- 입력 프롬프트에 있던 토큰이나 표현은 LLM이 보다 높은 확신을 가지고 생성한다는 사실을 관찰
- 위 관찰 내용을 바탕으로 Draft Reconstruction, Hint Refinement, Noise Reduction의 3단계를 거쳐서 프롬프트를 복원하는 방법론 제안
- 대상 LLM 및 task에 상관 없이 일관되게 성능 향상 효과가 있다고 주장
Related Works
- LLM으로 하여금 원하는 결과를 얻어내도록 하는 방법론 이라는 측면에서 Jailbreaking과 약간 비슷한 목적을 가지고 있음
- 크게 나누면 LLM의 Checkpoint를 활용할 수 있는지 아닌지 2가지로 구분 (white-box vs black-box)
Anthropic’s Metaprompt