Prompt Recovery for LLM | Notion

cleanUrl: "/prompt-recovery"
floatFirstTOC: right
title: "LLM 프롬프트 복원 기술 동향"
description: "LLM의 출력 결과만으로 입력 프롬프트를 자동으로 복원하는 방법을 소개합니다. DORY 방법론을 중심으로 최신 연구 동향을 살펴보세요."

도입

In-context Learning 능력을 활용하여 LLM을 다양한 태스크에 손쉽게 활용할 수 있음
그렇지만 모델의 생성 결과가 입력 프롬프트에 따라 매우 민감하며, 따라서 일반적으로 원하는 결과를 얻기 위하여 trial-and-error 방식으로 사람이 수동으로 제작하는 것이 일반적
만약 LLM의 생성 결과를 토대로 해당 결과가 나올 수 있도록 입력 프롬프트를 복원 수 있다면 프롬프트 생성 과정이 훨씬 효율적일 것으로 예상
이 아티클에서는 모델 Checkpoint에 대한 접근이 불가능한 경우에도 Output 텍스트와 토큰별 확률 값만을 활용하여 입력 프롬프트를 복원할 수 있는 방법을 소개함
리뷰 논문 : https://arxiv.org/abs/2405.20657 (by Zhejiang University)

개요

스크린샷 2024-06-05 오후 3.11.19.png

한줄요약 : 모델의 생성 결과 텍스트와 각 토큰별 확률 값을 잘 활용해서 원본 입력 프롬프트를 복원하는 문제에 적용했더니 뛰어난 성능을 보인다는 내용
입력 프롬프트에 있던 토큰이나 표현은 LLM이 보다 높은 확신을 가지고 생성한다는 사실을 관찰
위 관찰 내용을 바탕으로 Draft Reconstruction, Hint Refinement, Noise Reduction의 3단계를 거쳐서 프롬프트를 복원하는 방법론 제안
대상 LLM 및 task에 상관 없이 일관되게 성능 향상 효과가 있다고 주장

Related Works

LLM으로 하여금 원하는 결과를 얻어내도록 하는 방법론 이라는 측면에서 Jailbreaking과 약간 비슷한 목적을 가지고 있음
크게 나누면 LLM의 Checkpoint를 활용할 수 있는지 아닌지 2가지로 구분 (white-box vs black-box)

Anthropic’s Metaprompt