[논문리뷰] Less is More: Learning to Refine Dialogue History for Personalized Dialogue Generation (NAACL 2022)

13 minute read

이 연구는 사용자 성격에 맞춘 대화 응답 생성을 위한 개인화 대화 시스템을 제안하며, 사용자 대화 이력을 정제하여 더 유용하고 정확한 정보를 추출함으로써 개인화 응답의 품질을 향상시키는 방법을 제시합니다. 실험 결과, 제안한 모델이 보다 정보가 풍부하고 개인화된 응답을 생성하는 데 우수한 성능을 보였음을 보여줍니다.

1 Introduction

최근 몇 년간 개인화된 대화 시스템 구축에서 큰 발전이 이루어짐.
이전 연구는 주로 두 가지 경로로 개인화된 대화 시스템을 탐구:
1. 미리 정의된 페르소나 설명이나 사용자 속성에서 사용자 성격을 직접 모델링 (Qian et al., 2018; Zhang et al., 2018; Song et al., 2019).
2. 사용자의 대화 이력에서 성격을 간접적으로 모델링 (Li et al., 2016c; Ma et al., 2021).
후자의 방법이 우수한 것으로 여겨짐, 대화 이력은 쉽게 얻을 수 있으며 풍부한 개인화 정보를 포함.
본 논문은 두 번째 경로를 따르며, 사용자 대화 이력에서 암시적인 사용자 프로필을 자동으로 학습하여 개인화된 응답 생성을 지원.
대화 이력에서 사용자 성격을 모델링하는 것은 도전적. 주요 이유는 대화 이력이 방대한 과거 대화를 포함할 수 있어 모델이 과부하되거나 잡음이 발생할 수 있음.
기존 연구(예: Ma et al., 2021; Qian et al., 2021a)는 대화 이력을 잘라내는 간단한 해결책을 제안하지만, 많은 정보가 낭비됨.
다른 사용자의 대화 이력도 현재 사용자에게 개인화된 응답 생성을 위해 유용할 수 있음. 예를 들어, “축구”에 관심 있는 사용자들끼리는 비슷한 주제를 다룰 수 있음.
공통적인 문제는 “데이터 폭발”이며, 이는 유사 사용자 대화 이력을 고려할 때 더욱 심각함.
이를 해결하기 위해, 계층적 정제기 구조를 사용하여 현재 및 유사 사용자의 대화 이력에서 가장 가치 있는 쿼리 주의 페르소나 정보를 효과적으로 추출하는 방법 제안.
제안된 모델은 MSP로, 이는 대화 이력에서 사용자 성격을 모델링하고 선택하는 것을 의미.
MSP는 모든 대화 이력에 주목하는 대신, 사용자의 성격을 잘 나타내고 응답 생성을 안내할 수 있는 가장 가치 있는 역사 정보를 정제함.
MSP 구성 요소:
1. 사용자 정제기: 현재 사용자와 유사한 관심사를 가진 사용자 그룹을 선택.
2. 주제 정제기: 현재 쿼리와 다른 주제를 가진 대화 이력을 필터링.
3. 토큰 정제기: 남은 대화 이력에서 쿼리 주의 사용자 프로필을 추출.
마지막으로, 개인화된 응답 생성기는 사용자 프로필과 현재 쿼리를 결합하여 응답 생성.
명시적인 감독 신호가 없으므로, 보조 문장 매칭 작업과 공동 훈련 방법 설계.
생성기는 정제기의 추출을 안내할 수 있는 의사 레이블을 구성.
기여 사항:
1. MSP 모델을 설계하여 데이터 잡음 문제를 해결하고, 대화 이력을 통해 사용자 프로필을 효율적으로 정제 및 개인화된 응답 생성.
2. 세 가지 수준에서 쿼리 주의 프로필을 추출하기 위한 정제기 구조 설계, 유사 사용자 정보를 고려하여 응답의 개인성을 향상.
3. 정제기와 생성기를 위한 공동 훈련 방법 설계, 정제기는 생성기에 사용자 프로필을 제공하고, 생성기는 정제기에 의사 레이블을 구성하여 프로필 선택을 지원.

개인화된 대화 생성
- 오픈 도메인 대화 생성에 대한 연구가 광범위하게 진행됨 (Koehn et al., 2003; Vinyals and Le, 2015; Serban et al., 2016; Zhang et al., 2019a,b; Liu et al., 2020; Xiao et al., 2020; Zhu et al., 2020).
- 최근 개인화된 대화 시스템에 대한 관심 증가.
- 일반적인 방법:
  1. 사전 정의된 페르소나 설명이나 속성을 사용하여 사용자 프로필로 개인화된 응답 생성 (Qian et al., 2018; Zhang et al., 2018; Olabiyi et al., 2019; Song et al., 2019).
  2. 사용자 ID 임베딩을 활용하여 개인화된 대화 생성 강화 (Li et al., 2016c; Chan et al., 2019).
  3. 사용자 대화 이력을 통해 암묵적인 사용자 프로필 추출하여 개인화된 응답 생성 (Al-Rfou et al., 2016; Bak and Oh, 2019; Ma et al., 2021).
- 대규모 데이터셋에서 사용자 프로필 수집은 비현실적이며, 사용자 ID 임베딩 성능이 좋지 않아서, 본 연구는 마지막 방법에 집중함.
- DHAP (Ma et al., 2021)은 개인화된 대화 생성에서 최첨단 기법으로, 트랜스포머 구조를 사용하여 사용자의 대화 이력을 모델링하고 개인 정보를 추출함.
- 그러나 이 모델은 한정된 수의 대화 이력만 처리 가능하여 많은 가치 있는 정보를 낭비함.
- 본 연구 방법은 DHAP와 두 가지 주요 차이점이 있음:
  1. 더 많은 대화 이력을 처리하고 가장 가치 있는 정보를 추출할 수 있도록 정제기(refiner) 구조를 제안.
  2. 제안하는 정제기를 활용하여 유사한 관심사를 가진 다른 사용자로부터의 더 많은 대화 이력을 통합하여 개인화된 대화 생성을 촉진.
회수 기반 자연어 생성
- 회수 기반 방법은 언어 생성을 위한 관련 정보를 수집하는 데 사용됨 (Yang et al., 2019).
- 텍스트 스타일 전환 (Li et al., 2018) 및 대화 생성 (Wu et al., 2019; Cai et al., 2019)과 같은 여러 작업에 광범위하게 적용됨.
- 유용한 정보를 수집하기 위한 회수 시스템 사용 아이디어는 본 연구에 영감을 줌.
- 대화 이력에서 개인 정보를 자동으로 추출하고 개인화된 생성을 안내하기 위해 정제기를 사용함.

3 Methodology

문제 정의 및 개요
- 문제를 공식화하여 명확히 함
- 제안된 MSP 모델에 대한 개요 제공
모델 구성 요소 설명
- 각 구성 요소의 세부사항 기술
- 모델의 최적화 과정 설명
추가 세부사항
- 특정 메커니즘이나 프로세스는 수식으로 표현할 필요가 있음
- 예) 수식: \(x + y = z\) (단, 관련 내용은 제공되지 않음)

3.1 Problem Statement and Overview

사용자 집합 U = {u1,···,ul}을 고려
각 사용자 ui에 대해, 대화 이력은 다음과 같이 정의됨:
- \[U_i = {(q_{ij}, r_{ij}) | j = 1, 2, \ldots, t}\]
- 여기서 \(q_{ij}\)는 다른 사용자가 발행한 쿼리, \(r_{ij}\)는 ui가 제공한 응답
목표: 새로운 쿼리 \(q\)에 대해 사용자 ui가 개인화된 응답 \(r_i\)를 생성
개인화 정보는 사용자 ui의 대화 이력 \(U_i\)와 유사한 사용자 uj(j ≠ i)의 대화 이력 \(U_j\)에서 얻을 수 있음

제안된 모델 개요

MSP 모델 구조는 네 개의 모듈로 구성:
1. 사용자 리파인러 (User Refiner)
2. 주제 리파인러 (Topic Refiner)
3. 토큰 리파인러 (Token Refiner)
4. 생성기 (Generator)
모델의 작동 방식:
- 사용자 레벨에서의 대화 이력을 비교하여 유사한 관심사를 가진 사용자 그룹 선택
- 선택된 유사 사용자들의 대화 이력을 현재 쿼리의 주제와 관련성에 따라 추가 리파인
- 관련된 발화에서 가장 세밀한 개인 정보를 추출하기 위해 마지막 리파인러 추가
- 쿼리와 추출된 토큰을 생성기로 전달하여 개인화된 응답 구성
전체 프로세스 시각화는 그림 1에 나타나 있음.

3.2 User Refiner

사용자 간 대화 기록은 개인 정보를 많이 공유할 수 있음.
현재 사용자와 유사한 관심사를 가진 사용자 그룹을 선택하는 것이 목표.
사용자 정제기(User Refiner)를 설계하여 유사한 사용자를 선정함.
사용자 관심사는 대화 기록에 포함되어 있으므로:
- 쿼리와 응답 모두를 고려하여 유사 사용자를 선택.
사용자 \(u_i\)의 대화 기록 \(U_i\)에 대해:
- 사전 훈련된 BERT 모델을 적용하여 표현.
- \[U_i^q = \sum_{j=1}^{t} BERT(q_{ij})\]
- \[U_i^r = \sum_{j=1}^{t} BERT(r_{ij})\]
유사한 관심사를 가진 \(ku\)명의 사용자 선택:
- \(u_{sim} = TopK(U_i \cdot U_j, ku)\) (식 1)
- \(U_i = [U_i^q; U_i^r]\) (식 2)
TopK(·,·)는 상위 k개 선택 작업.
정제기를 통해 유사 사용자들의 대화 기록 \({u_j}_{j=1}^{ku}\)를 획득.
데이터셋의 사용자 수가 많기 때문에:
- 사용자의 유사성을 계산하기 위해 내적(dot-product) 사용.
- 전체 과정은 Faiss와 같은 밀집 검색 라이브러리를 통해 효율적으로 구현 가능.

3.3 Topic Refiner

사용자 대화 기록에는 다른 사람들과의 여러 대화가 포함됨
이러한 대화는 현재 쿼리와 관련이 없는 다양한 주제를 포함할 수 있음
주제 분류기를 제안하여 개인화된 응답 생성을 위한 관련 대화 기록 선택
주제 분류 계산:
- 현재 쿼리의 주제 분포: \(t = MLP(\text{mean}(BERT(q)))\)
- 과거 대화 쿼리의 주제 분포: \(t_{ij} = MLP(\text{mean}(BERT(q_{ij})))\)
여기서 \(t, t_{ij} \in R^{d_t \times 1}\)이며, \(d_t\)는 주제의 수
서로 다른 주제를 가진 대화 기록 필터링:
- 조건: \(\text{max}(t_{ij}) \neq \text{max}(t)\)
주제 정제 과정에서 현재 쿼리와 과거 대화 쿼리 비교
주제와 무관한 대화 필터링: 잡음을 줄이고 모델 경량화 도움
현재 사용자와 유사한 사용자의 대화 역사 모두 정제
다음 단계에서 선택된 대화 역사에서 응답 추출 및 개인화된 응답 생성 위해 가장 가치 있는 토큰 추출

3.4 Token Refiner

이전 두 개의 리파이너 후, 역사적 응답의 컬렉션을 얻음.
생성 과정에 직접 추가할 수 있지만, 초기 실험 결과 성능이 저조함.
주된 이유: 응답의 품질이 불량함.
기존 연구(Xing et al., 2017; Zhu et al., 2020)는 유용한 토큰 사용의 효과를 입증함.
이를 바탕으로, 역사적 응답에서 가장 세분화된 정보(토큰)를 추출하기 위한 토큰 리파이너를 개발.
주의 맵 \(A\) 계산:
- \[A = \text{softmax} \left( Q K^T \frac{1}{\sqrt{d}} \right)\]
- \[Q = \text{TRMenc}(q) \cdot W_Q\]
- \[K = \text{TRMenc}(r) \cdot W_K\]
여기서,
- \(\text{TRMenc}(·)\): 트랜스포머 인코더
- \(r\): \(r_{sim}\) 또는 \(r_{cur}\)
- \(A\): 유사 사용자 매칭 맵 \(A_{sim}\) 및 현재 사용자 매칭 맵 \(A_{cur}\)
- \(W_Q, W_K \in \mathbb{R}^{d \times d}\): 파라미터
- \(d\): 히든 상태의 차원
주의 매칭 맵 \(A\)를 바탕으로 프로필 토큰 선택:
- \[c_{sim} = \text{TopK}(\text{Max}(A_{sim}), k_p)\]
- \[c_{per} = \text{TopK}(\text{Max}(A_{cur}), k_p)\]
\(k_p\): 프로필 토큰 수를 조절하는 하이퍼파라미터, 실험에서 그 영향 조사 예정.

3.5 Generator

우리는 개인화된 응답 생성을 위해 변환기 디코더를 사용합니다.
입력으로는 비슷한 사용자 프로필 \(csim\), 현재 사용자 프로필 \(ccur\), 쿼리 정보 \(q\)를 사용합니다.
디코딩 프로세스 정의:
- \[\hat{y} = \text{TRMdec}(x)\quad (10)\]
- \[x = [csim; cper; q]\quad (11)\]
여기서 \([;]\)는 연결(concatenation) 연산을 의미하며, \(\hat{y}\)는 단어 생성 확률입니다.

3.6 Training and Optimization

생성기 최적화
- 생성기를 최적화하기 위해 정답인 \(y\)의 생성 확률을 최대화함: \(L_g = -y \log \hat{y}\)
토큰 리파인러의 훈련 어려움
- 토큰 리파인러 훈련이 어려운 이유는 직접적인 감독 신호가 부족하기 때문으로 추측됨.
- 훈련 오류가 생성 과정에서 발생한 것인지 리파인 과정에서 발생한 것인지 구분하기 어려움.
보조 문장 매칭 과제 제안
- 이 과제의 핵심 아이디어는 감독 신호를 도입하여 토큰 리파인러를 직접 훈련시키는 것.
- 쿼리와 대화 이력을 매칭하는 문장 매칭 과제를 설계.
- 개인화된 응답 생성을 돕는 역사 문장을 찾는 것이 목표.
매칭 표현 생성
- 쿼리-이력 간 크로스 attention 가중치 \(A\)를 사용하여 매칭 표현 \(H\)를 생성: \(H = A \cdot V\) \(V = TRM_{enc}(r) \cdot W_V\)
CNN과 LSTM 적용
- CNN과 max-pooling을 사용하여 토큰 정보를 집계: \(S = Maxpool(CNN(H))\)
- \(S\)를 평탄화하고 LSTM을 적용하여 문장 정보를 집계: \(h = LSTM(Flatten(S))\)
- 문장 매칭 벡터 \(h\)를 사용하여 매칭 점수 계산: \(\hat{g} = Sigmoid(MLP(h))\)
의사 레이블 설계
- 각 역사 문장의 매칭 품질을 측정하기 위해 의사 레이블 \(g\)를 설계.
- 개인화된 정보가 더 많이 포함된 역사 문장이 더 높은 점수를 받을 것으로 기대.
- 의사 레이블 생성: \(g = \begin{cases} 1, & g_{soft} \ge \alpha \\ 0, & g_{soft} < \alpha \end{cases}\) \(g_{soft} = \frac{Sum(Max((y - \hat{y'} \cdot r)))}{d_y}\)
이진 크로스 엔트로피 손실 최소화
- 의사 레이블 \(g\)와 \(\hat{g}\) 간의 이진 크로스 엔트로피 손실을 최소화: \(L_s = g \log \hat{g} + (1 - g) \log(1 - \hat{g})\)
결합 훈련
- 리파인러와 생성기를 차례로 훈련하기 위한 결합 훈련 프로세스 설계.
- 각 훈련 반복에서 데이터셋 \(D\)에서 쿼리 \(q\), 응답 \(y\), 유사한 사용자 대화 역사 \(r_{sim}\) 및 현재 사용자 대화 역사 \(r_{cur}\)를 샘플링.
- 비개인화된 응답 \(\hat{y'}\) 생성 후 의사 레이블 \(g\) 생성하고 토큰 리파인러 훈련.
훈련 과정 요약
- Nf 단계 동안 리파인러를 사전 훈련한 후 프로파일을 추출하여 생성기 훈련.
- 훈련 과정은 알고리즘 1에 요약됨.
데이터셋 통계
- Reddit: 사용자 수 78,031, 평균 역사 길이 72.4, 응답 평균 단어 수 9.1
- Weibo: 사용자 수 46,973, 평균 역사 길이 30.8, 응답 평균 단어 수 9.6

4.1 Datasets

모델 성능 평가를 위해 다음과 같은 데이터셋을 사용:
- 중국 Weibo 데이터셋 (Qian et al., 2021b)
- 영어 Reddit 데이터셋
두 데이터셋 모두 공개 도메인 소셜 미디어 플랫폼에서 수집됨.
사용자가 다양한 주제를 게시하고, 다른 사용자가 이에 응답할 수 있는 구조.
사용자 ID 및 타임스탬프를 비교하여 쿼리와 해당 응답, 현재 사용자의 대화 기록을 연관.
각 훈련 샘플은 쿼리, 응답, 대화 기록의 시퀀스로 구성됨.
최종적으로, 데이터셋은 시간 순서에 따라 훈련, 검증, 테스트 세트로 나뉘어짐.
데이터셋 통계는 표 1에 제공됨.

4.2 Baseline Methods

제안한 모델을 8개의 강력한 기초 모델과 비교
기초 모델은 4개의 그룹으로 분류

1. 비개인화 방법

Seq2SeqAttention (Sutskever et al., 2014)
- 기본적인 시퀀스-투-시퀀스 모델, 주의 메커니즘 포함 (Luong et al., 2015)
MMI (Li et al., 2016a)
- Seq2Seq 기반, 최대 상호 정보성을 추가 손실로 사용하여 다양성 향상
DialoGPT (Zhang et al., 2019b)
- 대화 생성을 위한 GPT-2 변형 (Radford et al., 2019)

2. 사전 정의 프로필 기반 방법

데이터셋에 인물 설명이 없으므로, 사용자 대화 기록을 사용하여 사전 정의된 인물 프로필 시뮬레이션
GPMN (Zhang et al., 2018)
- Seq2Seq 모델에 메모리 모듈 추가, 인물 프로필을 메모리 표현으로 인코딩 및 저장
PerCV AE (Zhao et al., 2017)
- 사전 정의된 개인화 문장을 조건부 표현으로 인코딩, CV AE 사용하여 개인화된 응답 생성

3. 사용자 ID 기반 방법

Speaker (Li et al., 2016c)
- Seq2Seq 기반, 사용자 ID 임베딩을 사용자 표현으로 사용하여 응답 생성 용이
Persona W AE (Chan et al., 2019)
- WAE (Wasserstein 오토인코더) 사용, 사용자 ID 임베딩을 개인화된 가우시안 혼합 분포로 매핑 후 응답 생성 유도

4. 사용자 대화 기록 기반 방법

DHAP (Ma et al., 2021)
- 역사 메모리 사용하여 동적 쿼리 인식 사용자 프로필 구축, 개인화된 디코더로 응답 생성
- 사용자 대화 기록으로부터 사용자 프로필을 직접 학습하기 때문에, 제안하는 방법과 가장 관련 있는 기초 모델

4.3 Implementation Details

여러 하이퍼파라미터 세트를 실험하여 최적 모델 선택
최종 하이퍼파라미터:
- 임베딩 및 Transformer 숨겨진 유닛의 차원: 768
- Transformer의 헤드 수: 12
- Transformer 레이어 수:
  - 쿼리 인코더: 2
  - 디코더: 12
- 주제 수: 15
- 유사 사용자 수: 10
- 선택된 프로파일 토큰 수:
  - Weibo 데이터셋: 200
  - Reddit 데이터셋: 30
- 배치 크기: 128
디코딩 전략으로 누클리어스 샘플링 사용 (Holtzman et al., 2020 인용)
훈련 Refiner를 위한 Adam 옵티마이저 사용 (Kingma and Ba, 2015)
생성기를 위한 AdamW 옵티마이저 사용 (Loshchilov and Hutter, 2019) 및 워밍업 방법 적용
코드 공개됨

4.4 Evaluation Metric-based Evaluation

다양한 지표를 사용한 평가
- (1) BLEU-1/2 및 ROUGE-L: 생성된 응답과 실제 정답 간의 유사성을 측정하는 전형적인 단어 중첩 기반 지표.
- (2) Distinct-1/2: 생성된 응답에서 유니그램 또는 바이그램의 수를 고려하여 다양성을 평가.
- (3) 임베딩 기반 지표: 생성된 응답과 실제 정답 간의 의미적 유사성을 측정하는 평균, 극단값, 탐욕적 방식의 지표.
- (4) 개인화 대화 모델 지표: 대화 이력에서 반영된 정보량을 측정하기 위해 두 가지 맞춤 지표 사용.
  - Persona-F1 (PF1): 생성된 응답과 대화 이력 모두에서 공통적으로 나타나는 유니그램의 F1 값을 계산.
  - Persona Coverage (P-Cover): 생성된 응답과 실제 정답 간의 IDF-가중 단어 중첩을 계산, 서로 다른 단어의 중요성을 고려.
인간 평가
- 인간 언어의 변동성 때문에 실제 정답과 다를 수 있는 응답 또한 적합할 수 있음.
- 세 명의 교육받은 평가자가 생성된 응답을 평가하며, 세 가지 측면 (가독성, 정보성, 개인화)을 고려.
- 가독성과 정보성은 [1, 3] 스케일로 품질 평가, 개인화는 [0, 1] 스케일로 반영된 정도 평가.
표 3: Weibo 및 Reddit 데이터셋에 대한 지표 기반 평가 결과
- 최고의 결과는 굵게 표시되고, “†”는 t-검정에서 p값 < 0.05의 유의미한 개선을 나타냄.

4.5 Experimental Results

메트릭 기반 평가
- 표 3에서 다양한 메트릭 하의 모델 성능을 비교.
- MSP 모델이 두 데이터셋에서 모든 메트릭에서 기본 모델보다 우수한 성능을 보임.
- 통계적으로 유의미한 차이 (t-test, p-value < 0.05).
- 요약:
  1. MSP는 중복 기반 메트릭에서 성능 향상.
    - 선택된 토큰의 도움이 있어 실제 정답과 더 유사한 응답 제공 가능.
  2. 다양성 메트릭에서 더 높은 고유 값은 생성된 응답의 다양성을 보여줌.
    - 사전 정의된 프로필 기반 방법과 사용자 대화 이력 기반 방법이 성능 우수.
  3. 중복된 단어 생성 외에도 임베딩 메트릭 향상은 모델이 더 의미론적으로 관련 있는 응답을 생성했음을 나타냄.
  4. 개인화 메트릭의 증가로 사용자 특정 정보를 더 잘 통합함을 암시.
    - DHAP에 비해 유의미한 개선이 이루어져 사용자 대화 이력에서 더 많은 개인화 정보를 추출 가능.
인간 주석
- Weibo 데이터셋의 인간 주석 결과는 표 4에 수록.
- Fleiss Kappa 값은 약 0.62로, 세 명의 주석자 간의 상당한 합의 도출.
- 인간 주석 결과는 메트릭 기반 평가 결과와 일치.
  - 두 결과 모두 모델의 유창하고 정보가 풍부하며 개인화된 응답 생성 능력을 입증.
- 비개인화 방법과 비교하여 사용자 ID 기반 방법은 개인화를 향상시키지만 가독성 감소.
- 사용자 대화 이력 기반 방법(DHAP 및 MSP)은 높은 가독성과 정보성을 유지하며 개인화 개선.
결과 요약
- 표 5에 Weibo 데이터셋에 대한 앙상블 실험 결과.
- 전체 MSP 모델과 다양한 구성 요소 제거 시 성능 변화 관찰.
  - 각 제거 항목은 BLEU-1, BLEU-2, P-Cover를 통해 성능 저하를 기록함.

5 Further Analysis

모델 분석: Weibo 데이터셋의 결과를 기반으로 추가 분석을 수행하고, Reddit 데이터셋에서도 유사한 결과를 관찰함.
제거 연구 (Ablation Study):
- 사용자 리파이너 제거: 임의로 샘플링한 사용자로 모델 학습 시 모든 메트릭 성능 저하. 이는 MSP 모델이 현재 사용자와 관심사를 공유하는 사용자를 선택하여 응답 품질을 향상시킬 수 있음을 보여줌.
- 주제 리파이너 제거: 전체 대화 이력을 제공할 때 성능 저하 발생. 대화 이력의 다양한 주제가 노이즈를 유발하여 토큰 리파이너가 유용한 토큰 추출에 방해가 됨.
- 토큰 리파이너 제거: 모든 대화 이력을 생성기에 직접 공급 시 성능 저하 발생. 토큰 선택의 필요성과 효과를 시사함.
- 전체 대화 이력 대신 선택 전략을 사용하면 학습 시간을 41.6% 감소시켜 효율성을 크게 증가시킴.
개인화 정보의 영향:
- 현재 사용자 프로필이나 유사 사용자 프로필 중 하나를 제거하면 성능 저하. 특히 현재 사용자 프로필의 제거가 개인화 효과에 더 큰 영향을 미침.
- 유사 사용자 프로필은 BLEU-1/2에 significant effect, 응답 생성에 풍부한 정보를 제공.
합동 훈련 검증:
- 토큰 리파이너의 추가 감독 신호 없이 유용한 정보 추출이 불가능함을 나타냄. 문장 매칭 작업 제거 시, 토큰 리파이너는 현재 쿼리에 관련된 токены를 추출하나, 개인화된 응답 생성에는 덜 유용함.
선택 메커니즘의 영향:
- 전통적인 검색 방법(BM25)으로 리파이너를 대체하여 실험. 검색 전략은 단어 중첩 및 임베딩 기반 메트릭에서 유사한 성능을 보였음.
- 그러나 다양성과 개인화 메트릭에서 저조한 성과를 나타내어, 선정되지 않은 정보가 너무 일반적임을 보여줌.
개인화 토큰 수의 영향:
- MSP에서는 응답 생성을 위한 개인화 토큰을 추출하기 위해 세 가지 리파이너가 설계됨. 더 많은 토큰을 사용할수록 응답 생성 품질이 향상됨.
- 약 200개의 개인화 토큰 선택 시 최적의 성과, 그 이상에서는 노이즈로 인해 성능 저하. 대화 이력이 노이즈가 많음을 확인하고 정보 선택이 효과적이고 필요함을 뒷받침함.

6 Conclusion

본 연구에서는 개인화된 응답 생성을 위한 MSP 모델을 제안함.
이전 연구와의 차별점:
- 대규모 대화 이력에서 쿼리 인식 페르소나 정보를 추출하기 위해 리파이너 구조를 활용함.
다중 수준 리파이너:
- 대화 이력에서 유용한 정보를 희소하게 추출.
- 유사한 사용자의 정보를 활용하여 현재 사용자의 개인화를 향상시킴.
실험 결과:
- 제안한 모델이 정보적이고 개인화된 응답을 생성하는 데 효과적임을 입증.

Hanyong Lee

[논문리뷰] Less is More: Learning to Refine Dialogue History for Personalized Dialogue Generation (NAACL 2022)

1 Introduction

3 Methodology

3.1 Problem Statement and Overview

제안된 모델 개요

3.2 User Refiner

3.3 Topic Refiner

3.4 Token Refiner

3.5 Generator

3.6 Training and Optimization

4.1 Datasets

4.2 Baseline Methods

1. 비개인화 방법

2. 사전 정의 프로필 기반 방법

3. 사용자 ID 기반 방법

4. 사용자 대화 기록 기반 방법

4.3 Implementation Details

4.4 Evaluation Metric-based Evaluation

4.5 Experimental Results

5 Further Analysis

6 Conclusion

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)

Hanyong Lee

1 Introduction

2 Related Work

3 Methodology

3.1 Problem Statement and Overview

제안된 모델 개요

3.2 User Refiner

3.3 Topic Refiner

3.4 Token Refiner

3.5 Generator

3.6 Training and Optimization

4.1 Datasets

4.2 Baseline Methods

1. 비개인화 방법

2. 사전 정의 프로필 기반 방법

3. 사용자 ID 기반 방법

4. 사용자 대화 기록 기반 방법

4.3 Implementation Details

4.4 Evaluation Metric-based Evaluation

4.5 Experimental Results

5 Further Analysis

6 Conclusion

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)