[논문리뷰] Building Persona Consistent Dialogue Agents with Offline Reinforcement Learning (EMNLP 2023)
이 논문은 대화 시스템의 페르소나 일관성을 향상시키기 위해 기존 데이터로 비용 효율적인 훈련이 가능한 오프라인 강화학습(RL) 프레임워크를 제안하며, 자동화 및 인간 평가에서 높은 페르소나 일관성과 대화 품질을 입증한다.
1 Introduction
최근 몇 년간 대형 언어 모델의 급속한 발전은 매우 유창하고 자연스러운 응답을 생성할 수 있는 대화형 에이전트를 개발할 수 있게 했습니다. 이러한 대화 시스템은 일반적으로 많은 양의 비라벨링된 텍스트 데이터에 대화 과제를 추가로 세분화하여 학습하지만, 여전히 일관성이 부족한 문제를 겪습니다.
사회적 대화에서 일관성 문제를 해결하기 위해, 기존 연구에서는 에이전트를 설명하는 페르소나를 활용하여 대화 생성의 조건을 설정하는 방법을 제안했습니다. 이러한 페르소나는 에이전트의 성향을 나타내는 다양한 설명으로 구성됩니다. 페르소나 기반 대화의 장점으로 인해, 연구자들은 대화 에이전트의 페르소나 일관성을 높이는 데 집중해왔습니다.
기존의 페르소나 일관성 개선 방법은 주로 지도 학습이나 온라인 강화 학습을 중심으로 하고 있습니다. 지도 학습 방법은 모순된 발언에 적절히 대응하지 못해 대화 시스템이 모순에 둔감해지는 문제를 겪습니다. 온라인 강화 학습을 통한 문제 해결 시도도 있었으나, 이는 학습 과정의 비용이 높고 엄격한 비평가가 필요해 비효율적입니다.
이에 따라 우리는 오픈 도메인 대화 시스템의 페르소나 일관성을 향상시키기 위한 오프라인 강화 학습 프레임워크를 제안합니다. 오프라인 RL은 모순된 발언에 대한 명시적 벌칙을 통해 페르소나 일관성을 강화합니다. 또한, 새로운 샘플을 생성하지 않고 수집된 대규모 데이터셋을 활용하여 인적 주석이 포함된 보상 레이블을 기반으로 학습할 수 있습니다. 정책 발산으로 인한 학습 실패 가능성을 줄이며, 이는 행동 정규화가 필요한 상황에서 유용합니다.
오프라인 RL의 장점을 살리기 위해, 중요도 샘플링의 분산을 줄이는 VaRMI 메소드를 도입하였습니다. 이는 정책 그래디언트 오프라인 RL 학습에 사용될 수 있는 방법입니다. 오프라인 RL이 과제 지향 대화에 적용된 사례는 많지만, 사회적 대화에 적용하는 것은 명확한 보상 체계가 부족하여 도전적입니다. 우리는 페르소나 일관성이 오픈 도메인 대화의 핵심 요소임을 감안하여 이를 활용합니다. 페르소나 일관성 향상이 사회적 대화의 질을 함께 높인다는 연구 결과에 기반한 것입니다.
저희의 기여는 다음과 같습니다:
- 페르소나 일관성을 높이기 위한 오프라인 RL 프레임워크 제안, 인적 주석 보상을 사용하는 페르소나 일관성 비평가 포함.
- 정책 그래디언트 오프라인 RL 학습의 중요도 가중치 분산을 줄이기 위한 VaRMI 방법 도입.
- 제안된 방법이 BlenderBot3(BB3)의 페르소나 일관성과 대화 품질을 자동 및 인적 평가 모두에서 향상시켰음을 보여줌.
2 Related Work
Persona 기반 대화 생성
최근 몇 년 동안, PersonaChat 데이터셋(Zhang et al., 2018)을 활용한 인물(persona) 기반 대화 생성이 주로 이루어져 왔습니다. 가장 간단한 방법은 이 데이터셋을 사용한 지도 학습으로 모델을 미세 조정하는 것입니다(Roller et al., 2020; Shuster et al., 2022; Yavuz et al., 2019). 그러나 이러한 방식으로 훈련된 에이전트는 여전히 일관성 문제를 경험합니다.
기존 연구들은 자연어 추론(NLI) 분류기와 상호 인물 인식을 사용하는 방법(Liu et al., 2020)으로 인물 일관성을 개선하고자 했습니다. 다중단계 재작성(Song et al., 2020)이나 베이지안 합리적 발화 행위(Kim et al., 2020; Frank and Goodman, 2012)는 추가적인 대화 정책의 훈련 없이도 일관성을 향상하려는 시도입니다. 그러나 이러한 방법들은 다중턴 인물 일관성을 처리하지 못하거나, 추론 시간 동안 계산량이 증가하는 단점이 있습니다.
관심 훈련도 인물 일관성을 개선하기 위한 제안 중 하나이며, 반박 발화를 제거하려고 시도하지만, 발화를 명시적으로 보상하지 않는 단점이 있습니다. 우리의 오프라인 RL 방법은 반박과 함의에 대한 발화 수준 정보를 활용하여 훈련을 개선하고 일관성을 유지할 수 있습니다.
오프라인 강화 학습 (RL)
오프라인 RL은 대화 태스크에서 제한적으로 적용된 바 있으며, 주로 가격 협상(Verma et al., 2022)이나 MultiWOZ 같은 타스크 지향 대화 벤치마크를 중심으로 연구되어 왔습니다.
많은 연구들은 대화 정책을 최적화하기 위해 Q-러닝 기반의 오프라인 RL 방법을 사용합니다(Jaques et al., 2020; Snell et al., 2023). 이러한 방법은 효과적이지만, 추가적인 모델 훈련이 필요하여 복잡성과 리소스를 필요로 합니다. 우리는 고정된 보상을 가진 정책 그라디언트 기반 오프라인 RL 프레임워크를 제안하며, 이는 추가적인 모델 없이도 훈련과 배포가 가능하고 더 간결하며 효율적입니다.
정책 그라디언트 오프라인 RL은 중요도 샘플링으로 인한 높은 분산 때문에 실질적으로 사용이 제한되었습니다. 그러나 우리는 중요도 가중치의 분산을 줄이기 위한 방법(VaRMI)을 도입하여 훈련을 개선합니다.
3 Method
이 섹션에서는 성격 일관성을 개선하기 위한 오프라인 강화학습(RL) 프레임워크와 새로운 중요도 샘플링 방법을 설명합니다. 3.1절에서는 오프라인 RL 훈련이 어떻게 수행되는지를 개괄합니다. 3.2절에서는 우리의 VaRMI 중요도 샘플링 방법을 자세히 다루며, 3.3절에서는 프레임워크를 개략적으로 설명하고, 3.4절에서는 우리의 프레임워크를 대화 모델에 구현하는 방법을 논의합니다.
3.1 오프라인 RL
오프라인 RL 훈련 방법은 정책 경사 방법(policy-gradient method)을 사용하여 RL 목표를 최적화합니다. 이는 다음의 형태로 정의됩니다:
\[J(\theta) = E_{\tau \sim p(\pi*{\theta}(\tau))} \left[ \sum_{t=0}^{T} \gamma^t r(s_t, a_t) \right]\]여기서 \(\tau\)는 상태 \(s_t\), 행동 \(a_t\)의 상태 궤적을 나타내고, \(\gamma\)는 할인 인자입니다. 정책 경사는 우리의 정책에 대한 RL 목표의 그래디언트를 직접적으로 계산함으로써 얻어집니다:
\[\nabla_{\theta}J(\theta) = E_{\tau \sim p(\pi*{\theta}(\tau))} \left[ \sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(a_t | s_t) \hat{Q}(s_t, a_t) \right]\]여기서 \(\hat{Q}(s_t, a_t)\)는 현재 상태로부터의 추정 반환값입니다. 우리의 훈련은 오프라인 환경에서 수행되므로, 우리의 보상 함수는 응답의 문법적 유창성을 고려하지 않고, 오로지 명제에 주어진 성격에 대한 충실도를 평가합니다.
오프라인 RL에서 샘플은 최적화하고자 하는 정책과 다른 행동 정책 \(\pi_b\)로부터 제공됩니다. 따라서 \(\pi_b\)로부터 제공되는 샘플로부터 \(\pi_{\theta}\)의 기대값을 추정하기 위해 중요도 샘플링을 사용하여 우리의 정책 경사에 대한 공정한 추정값을 얻습니다:
\[\nabla_{\theta}J(\theta) = E_{\tau \sim p(\pi_b(\tau))} \left[ \sum_{t=0}^{T} w_t \nabla_{\theta} \log \pi\_{\theta}(a_t \vert s_t) \hat{Q}(s_t, a_t) \right]\]여기서 \(w_t\)는 중요도 가중치입니다. 실제로는 중요도 가중치의 변동성을 줄이기 위해 \(w_t \approx \frac{\pi_{\theta}(a_t \vert s_t)}{\pi_b(a_t \vert s_t)}\)를 사용합니다. 두 정책이 충분히 유사하다면 이 접근법이 잘 작동할 수 있습니다.
3.2 VaRMI 중요도 샘플링
정책 경사 기반 오프라인 RL 방법에서 가장 큰 문제는 그래디언트 추정치의 높은 변동성입니다. 우리는 VaRMI를 도입하여 이 문제를 완화하고 정책 경사 오프라인 RL의 훈련을 개선합니다.
VaRMI의 경우, 우리는 초기에 \(\pi_{\theta}\)를 MLE 솔루션으로 설정하여 중요도 가중치의 변동성을 줄입니다. 이로 인해 우리는 성격 관련 긍정적 보상 후보군에서는 \(w_t=1\)로, 부정적 보상 후보군에서는 \(w_t=\pi_{\theta}(a_t \vert s_t)\)로 설정하여 중요도 가중치를 단순화합니다.
VaRMI의 사용은 성격 일관성에 국한되어 있지만, 절대적 긍정 및 부정 보상의 개념이 있는 다른 작업에도 적용될 수 있습니다. 이 방법이 더 복잡한 보상, 긴 시간 단계 및 성격 일관성과 관련 없는 작업에 얼마나 잘 일반화되는지는 향후 연구 과제로 남겨둡니다.
3.3 프레임워크
우리의 프레임워크는 DNLI와 PersonaChat 데이터셋에 대해 어떻게 크리틱을 구축하는지, 오프라인 데이터셋을 생성하는지를 설명합니다. DNLI 데이터를 활용하여 대화 샘플과 관련된 내포(entailment) 라벨을 얻고, 대화 샘플의 모든 페르소나들이 충돌하지 않도록 보장합니다.
3.4 구현
우리의 방법을 Meta의 BlenderBot3 (BB3)에 구현합니다. BB3는 여러 대화 기술을 섞기 위해 다양한 데이터셋으로 미세조정된 최신 개방형 대화 시스템입니다. 우리가 사용하는 버전은 3억 개의 매개변수를 가지며, 중요도 샘플링 방법인 GOLD와 VaRMI로 4 에폭 동안 훈련됩니다. BB3의 일부 모듈은 비활성화하여 페르소나 일관성의 영향을 더 잘 분리해 냅니다.
4 Experiments
우리는 자동 및 인간 평가를 통해 페르소나 일관성을 위한 오프라인 강화 학습 프레임워크의 효과를 테스트했습니다. 그 결과, 중요도 샘플링 방법이 BB3 모델의 페르소나 일관성을 개선할 수 있음을 확인했습니다. 인간 평가 결과에 따르면, VaRMI 중요도 샘플링 방법은 모델의 전체 대화 품질을 개선했습니다.
4.1 평가 데이터셋
DNLI 평가 세트: Welleck et al. (2019)의 기본 DNLI 데이터셋과 함께 대화 모델의 페르소나 일관성을 테스트하기 위한 평가 세트를 제공합니다. 평가 세트는 PersonaChat 평가 세트에서 가져온 페르소나와 대화 히스토리, 그리고 31개의 응답 후보를 포함합니다. 이 중 10개는 모순적이고, 10개는 대응하며, 10개는 중립적이며, 1개는 실제 다음 발화입니다. 모델은 이를 순위 매기며, 금과 대응하는 발화를 최상위로 매기는 것이 목표입니다. 총 542개의 대화가 평가를 위해 제공됩니다.
Mapped DNLI-PersonaChat 데이터셋: 5,000개의 대화로 구성된 매핑된 데이터셋에서 평가를 수행합니다. 이 대화는 훈련에서 제외되며, 모순이나 대응에 기반해 긍정 및 부정 발화 후보로 나눴습니다. 오프라인 RL 프레임워크의 목표는 대응하는 후보를 장려하고 모순을 방지하는 것입니다.
Model | Hits@1 ↑ | Entail@1↑ | Rand@1↓ | Contradict@1↓ |
---|---|---|---|---|
BB3 | 26.6 | 29.5 | 13.3 | 30.6 |
BB3+RL | 27.5 | 30.4 | 10.9 | 31.2 |
BB3+GOLD | 37.5 ∗ | 37.3∗ | 5.4∗ | 19.9∗ |
BB3+VaRMI | 37.6∗ | 37.6∗ | 4.4∗ | 20.3∗ |
표 2: DNLI 평가 데이터셋에 대한 중요도 샘플링 기술의 결과.
4.2 자동 평가
Mapped DNLI-PersonaChat 데이터셋 결과: 긍정 및 부정 발화 세트에 대한 훈련 손실 추이를 관찰합니다. 듣기 전, 양쪽 손실 간의 갭은 작으며, 이는 기본 모델이 모순을 덜 민감하게 처리함을 나타냅니다. GOLD와 VaRMI 방법을 통한 훈련 후, 이득적인 발화에 대한 손실은 감소하고, 모순된 발화에 대한 손실은 크게 증가해, 모델이 대응 발화를 선택하도록 유도됨을 확인했습니다.
DNLI 평가 세트 결과:
- GOLD 방법은 모순 감소에서, VaRMI 방법은 모든 다른 카테고리에서 최고 성능을 보였습니다.
- 모든 오프라인 훈련 방법의 개선은 BB3, BB3+RL 베이스라인 대비 통계적으로 유의미했지만, GOLD와 VaRMI 간의 차이는 유의미하지 않았습니다.
4.3 인간 평가
설정 및 결과: 90명을 모집하여 각자 다른 3개 시스템 중 하나를 테스트하게 했으며, 그 결과는 다음과 같습니다.
- 두 오프라인 RL 방법 모두 봇의 페르소나 일관성을 개선했으며, GOLD 방법이 페르소나 측면에서 가장 우수했습니다.
- 그러나 대화 품질에서는 VaRMI가 가장 좋았고, GOLD 방법은 페르소나 일관성을 위해 일부 대화 품질을 희생한 것으로 보입니다.
4.4 사용자 의견 및 오류 분석
BB3 | BB3 + VaRMI |
---|---|
다양한 사용자 불만을 수집한 결과, 봇의 언어가 어색하고 주제를 갑자기 바꾸는 경우가 많다는 점이 지적되었습니다. 특히 GOLD 방법은 페르소나를 과도하게 표현하는 경향이 있어 부정적인 피드백이 많았습니다. 이는 페르소나 일관성을 좀 더 강조하면서 발생한 문제로 추정됩니다. 반면, BB3+VaRMI 봇은 모순을 줄이고 일관성을 개선한 모습을 보였습니다.
5 Conclusion and Future Work
이 논문에서는 오프라인 강화 학습(RL)이 오픈 도메인 대화 시스템의 품질과 유용성을 효과적으로 향상시킬 수 있음을 보여주었습니다. 이를 위해 오프라인 RL을 페르소나 일관성 작업에 적용하여, 단순 모방 학습으로만 훈련된 시스템을 넘어 페르소나 일관성과 대화 품질을 향상시킬 수 있음을 입증했습니다. 사람의 주석을 사용한 페르소나 일관성 크리틱과 VaRMI라는 새로운 중요도 샘플링 방법을 개발했습니다. 자동 및 인간 평가 결과, 우리의 프레임워크가 BB3의 페르소나 일관성 및 전체 대화 품질을 성공적으로 향상시킬 수 있음을 나타냈습니다.
향후 연구로는 오픈 도메인 대화의 다른 면, 예를 들어 환각이나 공격적인 언어의 감소를 개선하기 위해 프레임워크를 확장하는 것입니다. 대형 언어 모델(LLM)이 양질의 합성 데이터를 생성할 수 있는 능력을 고려할 때, 이는 사람의 대화를 수집하지 않고도 더 쉽게 수행할 수 있습니다. 또한 VaRMI의 일반화 가능성을 다른 작업에 얼마나 잘 적용할 수 있는지를 탐구하는 것도 가치가 있습니다. 오프라인 정책 경사법은 높은 분산으로 인해 제한된 사용 사례를 보였으며, 따라서 VaRMI가 이러한 문제를 더 넓게 해결할 수 있는지를 테스트하는 것도 중요합니다.
6 Limitations
우리의 프레임워크의 가장 큰 제약은 훈련 샘플의 수가 항상 고정되어 있다는 점입니다. 더 많은 샘플을 훈련하기 위해서는 인간 사용자로부터 데이터를 더 수집하거나 대형 언어 모델(LLM)에서 데이터를 합성해야 합니다. 이 두 가지 모두 시간에 따라 비용이 증가하지 않는 온라인 강화 학습(RL) 방법보다 비용이 더 많이 듭니다.
우리의 인간 실험은 언어 모델의 크기에 따라 어느 정도 제한을 받았습니다. 자원 제한으로 인해 우리는 BB3의 3B 파라미터 버전만 사용할 수 있었습니다. 이는 기존의 최첨단 언어 모델보다 훨씬 작은 크기입니다. 안타깝게도 BB3의 다음 큰 버전은 30B 파라미터로, 현재 자원으로는 훈련할 수 없는 훨씬 큰 모델입니다. 미래의 봇을 위해서 언어 모델의 크기를 키우는 데 더 많은 노력을 기울이는 것이 좋으며, 그렇게 하면 받은 품질 불만 중 일부가 해소될 수 있습니다.
7 Ethical Concerns
언어 모델에 페르소나를 부여하는 것은 모델이 인간인 척하게 만드는 것을 의미합니다. 사용자가 봇인지 여부를 물어보아도 모델은 부정할 가능성이 높습니다. 이는 봇임을 인정하는 것이 페르소나와 모순되기 때문입니다. 따라서 사용자가 대화를 시작하기 전에 상대가 챗봇임을 명확히 하는 것이 중요합니다. 모든 실험에서 우리는 사용자가 봇과 대화하고 있음을 분명히 밝혔으며, 개인 식별 정보를 제공하지 않도록 지시했습니다.
독자의견
- 본 연구에서는 리소스 문제 때문에 3B 파라미터의 언어모델만을 사용했다고 한다. 이를 극복하기 위해서 더 큰 모델을 사용하되, LoRA 등의 파라미터-효율적 학습 방법을 사용할 수 있을 것이다.
- 구체적으로는 30B, 175B등의 더 큰 언어모델의 파라미터는 프리징하고 LoRA모듈의 파라미터만 강화학습 시 업데이트 하는 것이다.
- 또한 한정된 데이터셋만을 사용한 강화학습에 대한 한계 또한 존재한다. 이는 LLM을 사용하여 학습 데이터셋을 증강하여 해결할 수 있을 것이다.
- 다만 이 경우에는 LLM이 대화 데이터셋을 환각 등의 문제 없이 효과적으로 생성할 수 있는 방안에 대한 추가 연구가 필요하다.
Comments