cleanUrl: "/self-correction-with-prompting"
floatFirstTOC: right
# title: LLM은 스스로 답변의 위험성을 판단할 수 있을까?
# description: 초거대 언어 모델의 답변 위험성 판단과 관련된 논문 소개
LLM이 생성한 글을 사용자가 원하는 대로 ‘align’시키기 위해서 기존의 많은 연구에서는 preference dataset을 구축하고 reward model을 학습한 후 이 점수를 기반으로 LLM을 RL(e.g., PPO)로 튜닝하는 방식을 많이 사용
실제 OpenAI의 모델들 (InstructGPT, ChatGPT, GPT-4 등)을 비롯하여 Google, Meta, Anthropic 등 거의 모든 곳에서 이 방식으로 튜닝을 하여 LLM을 개발하였음
그러나 reward model을 학습하기 위한 데이터셋 제작은 매우 시간 및 비용이 많이 필요하며 구축 난이도가 높아 개발이 어려움
여기서는 명시적인 reward model 없이 zero-shot/few-shot prompting을 통하여 효과적으로 harmlessness 높이는(즉, harmful 컨텐츠 생성을 억제하는) 결과를 보여줌