[논문리뷰] Less is More: Learning to Refine Dialogue History for Personalized Dialogue Generation (NAACL 2022)
이 연구는 사용자 성격에 맞춘 대화 응답 생성을 위한 개인화 대화 시스템을 제안하며, 사용자 대화 이력을 정제하여 더 유용하고 정확한 정보를 추출함으로써 개인화 응답의 품질을 향상시키는 방법을 제시합니다. 실험 결과, 제안한 모델이 보다 정보가 풍부하고 개인화된 응답을 생성하는 데 우수한 성능을 보였음을 보여줍니다.
1 Introduction
- 최근 몇 년간 개인화된 대화 시스템 구축에서 큰 발전이 이루어짐.
- 이전 연구는 주로 두 가지 경로로 개인화된 대화 시스템을 탐구:
- 미리 정의된 페르소나 설명이나 사용자 속성에서 사용자 성격을 직접 모델링 (Qian et al., 2018; Zhang et al., 2018; Song et al., 2019).
- 사용자의 대화 이력에서 성격을 간접적으로 모델링 (Li et al., 2016c; Ma et al., 2021).
- 후자의 방법이 우수한 것으로 여겨짐, 대화 이력은 쉽게 얻을 수 있으며 풍부한 개인화 정보를 포함.
- 본 논문은 두 번째 경로를 따르며, 사용자 대화 이력에서 암시적인 사용자 프로필을 자동으로 학습하여 개인화된 응답 생성을 지원.
- 대화 이력에서 사용자 성격을 모델링하는 것은 도전적. 주요 이유는 대화 이력이 방대한 과거 대화를 포함할 수 있어 모델이 과부하되거나 잡음이 발생할 수 있음.
- 기존 연구(예: Ma et al., 2021; Qian et al., 2021a)는 대화 이력을 잘라내는 간단한 해결책을 제안하지만, 많은 정보가 낭비됨.
- 다른 사용자의 대화 이력도 현재 사용자에게 개인화된 응답 생성을 위해 유용할 수 있음. 예를 들어, “축구”에 관심 있는 사용자들끼리는 비슷한 주제를 다룰 수 있음.
- 공통적인 문제는 “데이터 폭발”이며, 이는 유사 사용자 대화 이력을 고려할 때 더욱 심각함.
- 이를 해결하기 위해, 계층적 정제기 구조를 사용하여 현재 및 유사 사용자의 대화 이력에서 가장 가치 있는 쿼리 주의 페르소나 정보를 효과적으로 추출하는 방법 제안.
- 제안된 모델은 MSP로, 이는 대화 이력에서 사용자 성격을 모델링하고 선택하는 것을 의미.
-
MSP는 모든 대화 이력에 주목하는 대신, 사용자의 성격을 잘 나타내고 응답 생성을 안내할 수 있는 가장 가치 있는 역사 정보를 정제함.
- MSP 구성 요소:
- 사용자 정제기: 현재 사용자와 유사한 관심사를 가진 사용자 그룹을 선택.
- 주제 정제기: 현재 쿼리와 다른 주제를 가진 대화 이력을 필터링.
- 토큰 정제기: 남은 대화 이력에서 쿼리 주의 사용자 프로필을 추출.
- 마지막으로, 개인화된 응답 생성기는 사용자 프로필과 현재 쿼리를 결합하여 응답 생성.
- 명시적인 감독 신호가 없으므로, 보조 문장 매칭 작업과 공동 훈련 방법 설계.
-
생성기는 정제기의 추출을 안내할 수 있는 의사 레이블을 구성.
- 기여 사항:
- MSP 모델을 설계하여 데이터 잡음 문제를 해결하고, 대화 이력을 통해 사용자 프로필을 효율적으로 정제 및 개인화된 응답 생성.
- 세 가지 수준에서 쿼리 주의 프로필을 추출하기 위한 정제기 구조 설계, 유사 사용자 정보를 고려하여 응답의 개인성을 향상.
- 정제기와 생성기를 위한 공동 훈련 방법 설계, 정제기는 생성기에 사용자 프로필을 제공하고, 생성기는 정제기에 의사 레이블을 구성하여 프로필 선택을 지원.
2 Related Work
- 개인화된 대화 생성
- 오픈 도메인 대화 생성에 대한 연구가 광범위하게 진행됨 (Koehn et al., 2003; Vinyals and Le, 2015; Serban et al., 2016; Zhang et al., 2019a,b; Liu et al., 2020; Xiao et al., 2020; Zhu et al., 2020).
- 최근 개인화된 대화 시스템에 대한 관심 증가.
- 일반적인 방법:
- 사전 정의된 페르소나 설명이나 속성을 사용하여 사용자 프로필로 개인화된 응답 생성 (Qian et al., 2018; Zhang et al., 2018; Olabiyi et al., 2019; Song et al., 2019).
- 사용자 ID 임베딩을 활용하여 개인화된 대화 생성 강화 (Li et al., 2016c; Chan et al., 2019).
- 사용자 대화 이력을 통해 암묵적인 사용자 프로필 추출하여 개인화된 응답 생성 (Al-Rfou et al., 2016; Bak and Oh, 2019; Ma et al., 2021).
- 대규모 데이터셋에서 사용자 프로필 수집은 비현실적이며, 사용자 ID 임베딩 성능이 좋지 않아서, 본 연구는 마지막 방법에 집중함.
- DHAP (Ma et al., 2021)은 개인화된 대화 생성에서 최첨단 기법으로, 트랜스포머 구조를 사용하여 사용자의 대화 이력을 모델링하고 개인 정보를 추출함.
- 그러나 이 모델은 한정된 수의 대화 이력만 처리 가능하여 많은 가치 있는 정보를 낭비함.
- 본 연구 방법은 DHAP와 두 가지 주요 차이점이 있음:
- 더 많은 대화 이력을 처리하고 가장 가치 있는 정보를 추출할 수 있도록 정제기(refiner) 구조를 제안.
- 제안하는 정제기를 활용하여 유사한 관심사를 가진 다른 사용자로부터의 더 많은 대화 이력을 통합하여 개인화된 대화 생성을 촉진.
- 회수 기반 자연어 생성
- 회수 기반 방법은 언어 생성을 위한 관련 정보를 수집하는 데 사용됨 (Yang et al., 2019).
- 텍스트 스타일 전환 (Li et al., 2018) 및 대화 생성 (Wu et al., 2019; Cai et al., 2019)과 같은 여러 작업에 광범위하게 적용됨.
- 유용한 정보를 수집하기 위한 회수 시스템 사용 아이디어는 본 연구에 영감을 줌.
- 대화 이력에서 개인 정보를 자동으로 추출하고 개인화된 생성을 안내하기 위해 정제기를 사용함.
3 Methodology
- 문제 정의 및 개요
- 문제를 공식화하여 명확히 함
- 제안된 MSP 모델에 대한 개요 제공
- 모델 구성 요소 설명
- 각 구성 요소의 세부사항 기술
- 모델의 최적화 과정 설명
- 추가 세부사항
- 특정 메커니즘이나 프로세스는 수식으로 표현할 필요가 있음
- 예) 수식: \(x + y = z\) (단, 관련 내용은 제공되지 않음)
3.1 Problem Statement and Overview
- 사용자 집합 U = {u1,···,ul}을 고려
- 각 사용자 ui에 대해, 대화 이력은 다음과 같이 정의됨:
- \[U_i = {(q_{ij}, r_{ij}) | j = 1, 2, \ldots, t}\]
- 여기서 \(q_{ij}\)는 다른 사용자가 발행한 쿼리, \(r_{ij}\)는 ui가 제공한 응답
- 목표: 새로운 쿼리 \(q\)에 대해 사용자 ui가 개인화된 응답 \(r_i\)를 생성
- 개인화 정보는 사용자 ui의 대화 이력 \(U_i\)와 유사한 사용자 uj(j ≠ i)의 대화 이력 \(U_j\)에서 얻을 수 있음
제안된 모델 개요
- MSP 모델 구조는 네 개의 모듈로 구성:
- 사용자 리파인러 (User Refiner)
- 주제 리파인러 (Topic Refiner)
- 토큰 리파인러 (Token Refiner)
- 생성기 (Generator)
- 모델의 작동 방식:
- 사용자 레벨에서의 대화 이력을 비교하여 유사한 관심사를 가진 사용자 그룹 선택
- 선택된 유사 사용자들의 대화 이력을 현재 쿼리의 주제와 관련성에 따라 추가 리파인
- 관련된 발화에서 가장 세밀한 개인 정보를 추출하기 위해 마지막 리파인러 추가
- 쿼리와 추출된 토큰을 생성기로 전달하여 개인화된 응답 구성
- 전체 프로세스 시각화는 그림 1에 나타나 있음.
3.2 User Refiner
- 사용자 간 대화 기록은 개인 정보를 많이 공유할 수 있음.
- 현재 사용자와 유사한 관심사를 가진 사용자 그룹을 선택하는 것이 목표.
-
사용자 정제기(User Refiner)를 설계하여 유사한 사용자를 선정함.
- 사용자 관심사는 대화 기록에 포함되어 있으므로:
- 쿼리와 응답 모두를 고려하여 유사 사용자를 선택.
- 사용자 \(u_i\)의 대화 기록 \(U_i\)에 대해:
- 사전 훈련된 BERT 모델을 적용하여 표현.
- \[U_i^q = \sum_{j=1}^{t} BERT(q_{ij})\]
- \[U_i^r = \sum_{j=1}^{t} BERT(r_{ij})\]
- 유사한 관심사를 가진 \(ku\)명의 사용자 선택:
- \(u_{sim} = TopK(U_i \cdot U_j, ku)\) (식 1)
- \(U_i = [U_i^q; U_i^r]\) (식 2)
- TopK(·,·)는 상위 k개 선택 작업.
-
정제기를 통해 유사 사용자들의 대화 기록 \({u_j}_{j=1}^{ku}\)를 획득.
- 데이터셋의 사용자 수가 많기 때문에:
- 사용자의 유사성을 계산하기 위해 내적(dot-product) 사용.
- 전체 과정은 Faiss와 같은 밀집 검색 라이브러리를 통해 효율적으로 구현 가능.
3.3 Topic Refiner
- 사용자 대화 기록에는 다른 사람들과의 여러 대화가 포함됨
- 이러한 대화는 현재 쿼리와 관련이 없는 다양한 주제를 포함할 수 있음
- 주제 분류기를 제안하여 개인화된 응답 생성을 위한 관련 대화 기록 선택
- 주제 분류 계산:
- 현재 쿼리의 주제 분포: \(t = MLP(\text{mean}(BERT(q)))\)
- 과거 대화 쿼리의 주제 분포: \(t_{ij} = MLP(\text{mean}(BERT(q_{ij})))\)
- 여기서 \(t, t_{ij} \in R^{d_t \times 1}\)이며, \(d_t\)는 주제의 수
- 서로 다른 주제를 가진 대화 기록 필터링:
- 조건: \(\text{max}(t_{ij}) \neq \text{max}(t)\)
- 주제 정제 과정에서 현재 쿼리와 과거 대화 쿼리 비교
- 주제와 무관한 대화 필터링: 잡음을 줄이고 모델 경량화 도움
- 현재 사용자와 유사한 사용자의 대화 역사 모두 정제
- 다음 단계에서 선택된 대화 역사에서 응답 추출 및 개인화된 응답 생성 위해 가장 가치 있는 토큰 추출
3.4 Token Refiner
- 이전 두 개의 리파이너 후, 역사적 응답의 컬렉션을 얻음.
- 생성 과정에 직접 추가할 수 있지만, 초기 실험 결과 성능이 저조함.
- 주된 이유: 응답의 품질이 불량함.
- 기존 연구(Xing et al., 2017; Zhu et al., 2020)는 유용한 토큰 사용의 효과를 입증함.
-
이를 바탕으로, 역사적 응답에서 가장 세분화된 정보(토큰)를 추출하기 위한 토큰 리파이너를 개발.
- 주의 맵 \(A\) 계산:
- \[A = \text{softmax} \left( Q K^T \frac{1}{\sqrt{d}} \right)\]
- \[Q = \text{TRMenc}(q) \cdot W_Q\]
- \[K = \text{TRMenc}(r) \cdot W_K\]
- 여기서,
- \(\text{TRMenc}(·)\): 트랜스포머 인코더
- \(r\): \(r_{sim}\) 또는 \(r_{cur}\)
- \(A\): 유사 사용자 매칭 맵 \(A_{sim}\) 및 현재 사용자 매칭 맵 \(A_{cur}\)
- \(W_Q, W_K \in \mathbb{R}^{d \times d}\): 파라미터
- \(d\): 히든 상태의 차원
- 주의 매칭 맵 \(A\)를 바탕으로 프로필 토큰 선택:
- \[c_{sim} = \text{TopK}(\text{Max}(A_{sim}), k_p)\]
- \[c_{per} = \text{TopK}(\text{Max}(A_{cur}), k_p)\]
- \(k_p\): 프로필 토큰 수를 조절하는 하이퍼파라미터, 실험에서 그 영향 조사 예정.
3.5 Generator
- 우리는 개인화된 응답 생성을 위해 변환기 디코더를 사용합니다.
-
입력으로는 비슷한 사용자 프로필 \(csim\), 현재 사용자 프로필 \(ccur\), 쿼리 정보 \(q\)를 사용합니다.
- 디코딩 프로세스 정의:
- \[\hat{y} = \text{TRMdec}(x)\quad (10)\]
- \[x = [csim; cper; q]\quad (11)\]
- 여기서 \([;]\)는 연결(concatenation) 연산을 의미하며, \(\hat{y}\)는 단어 생성 확률입니다.
3.6 Training and Optimization
- 생성기 최적화
- 생성기를 최적화하기 위해 정답인 \(y\)의 생성 확률을 최대화함: \(L_g = -y \log \hat{y}\)
- 토큰 리파인러의 훈련 어려움
- 토큰 리파인러 훈련이 어려운 이유는 직접적인 감독 신호가 부족하기 때문으로 추측됨.
- 훈련 오류가 생성 과정에서 발생한 것인지 리파인 과정에서 발생한 것인지 구분하기 어려움.
- 보조 문장 매칭 과제 제안
- 이 과제의 핵심 아이디어는 감독 신호를 도입하여 토큰 리파인러를 직접 훈련시키는 것.
- 쿼리와 대화 이력을 매칭하는 문장 매칭 과제를 설계.
- 개인화된 응답 생성을 돕는 역사 문장을 찾는 것이 목표.
- 매칭 표현 생성
- 쿼리-이력 간 크로스 attention 가중치 \(A\)를 사용하여 매칭 표현 \(H\)를 생성: \(H = A \cdot V\) \(V = TRM_{enc}(r) \cdot W_V\)
- CNN과 LSTM 적용
- CNN과 max-pooling을 사용하여 토큰 정보를 집계: \(S = Maxpool(CNN(H))\)
- \(S\)를 평탄화하고 LSTM을 적용하여 문장 정보를 집계: \(h = LSTM(Flatten(S))\)
- 문장 매칭 벡터 \(h\)를 사용하여 매칭 점수 계산: \(\hat{g} = Sigmoid(MLP(h))\)
- 의사 레이블 설계
- 각 역사 문장의 매칭 품질을 측정하기 위해 의사 레이블 \(g\)를 설계.
- 개인화된 정보가 더 많이 포함된 역사 문장이 더 높은 점수를 받을 것으로 기대.
- 의사 레이블 생성: \(g = \begin{cases} 1, & g_{soft} \ge \alpha \\ 0, & g_{soft} < \alpha \end{cases}\) \(g_{soft} = \frac{Sum(Max((y - \hat{y'} \cdot r)))}{d_y}\)
- 이진 크로스 엔트로피 손실 최소화
- 의사 레이블 \(g\)와 \(\hat{g}\) 간의 이진 크로스 엔트로피 손실을 최소화: \(L_s = g \log \hat{g} + (1 - g) \log(1 - \hat{g})\)
- 결합 훈련
- 리파인러와 생성기를 차례로 훈련하기 위한 결합 훈련 프로세스 설계.
- 각 훈련 반복에서 데이터셋 \(D\)에서 쿼리 \(q\), 응답 \(y\), 유사한 사용자 대화 역사 \(r_{sim}\) 및 현재 사용자 대화 역사 \(r_{cur}\)를 샘플링.
- 비개인화된 응답 \(\hat{y'}\) 생성 후 의사 레이블 \(g\) 생성하고 토큰 리파인러 훈련.
- 훈련 과정 요약
- Nf 단계 동안 리파인러를 사전 훈련한 후 프로파일을 추출하여 생성기 훈련.
- 훈련 과정은 알고리즘 1에 요약됨.
- 데이터셋 통계
- Reddit: 사용자 수 78,031, 평균 역사 길이 72.4, 응답 평균 단어 수 9.1
- Weibo: 사용자 수 46,973, 평균 역사 길이 30.8, 응답 평균 단어 수 9.6
4.1 Datasets
- 모델 성능 평가를 위해 다음과 같은 데이터셋을 사용:
- 중국 Weibo 데이터셋 (Qian et al., 2021b)
- 영어 Reddit 데이터셋
- 두 데이터셋 모두 공개 도메인 소셜 미디어 플랫폼에서 수집됨.
- 사용자가 다양한 주제를 게시하고, 다른 사용자가 이에 응답할 수 있는 구조.
- 사용자 ID 및 타임스탬프를 비교하여 쿼리와 해당 응답, 현재 사용자의 대화 기록을 연관.
- 각 훈련 샘플은 쿼리, 응답, 대화 기록의 시퀀스로 구성됨.
- 최종적으로, 데이터셋은 시간 순서에 따라 훈련, 검증, 테스트 세트로 나뉘어짐.
- 데이터셋 통계는 표 1에 제공됨.
4.2 Baseline Methods
- 제안한 모델을 8개의 강력한 기초 모델과 비교
- 기초 모델은 4개의 그룹으로 분류
1. 비개인화 방법
- Seq2SeqAttention (Sutskever et al., 2014)
- 기본적인 시퀀스-투-시퀀스 모델, 주의 메커니즘 포함 (Luong et al., 2015)
- MMI (Li et al., 2016a)
- Seq2Seq 기반, 최대 상호 정보성을 추가 손실로 사용하여 다양성 향상
- DialoGPT (Zhang et al., 2019b)
- 대화 생성을 위한 GPT-2 변형 (Radford et al., 2019)
2. 사전 정의 프로필 기반 방법
- 데이터셋에 인물 설명이 없으므로, 사용자 대화 기록을 사용하여 사전 정의된 인물 프로필 시뮬레이션
- GPMN (Zhang et al., 2018)
- Seq2Seq 모델에 메모리 모듈 추가, 인물 프로필을 메모리 표현으로 인코딩 및 저장
- PerCV AE (Zhao et al., 2017)
- 사전 정의된 개인화 문장을 조건부 표현으로 인코딩, CV AE 사용하여 개인화된 응답 생성
3. 사용자 ID 기반 방법
- Speaker (Li et al., 2016c)
- Seq2Seq 기반, 사용자 ID 임베딩을 사용자 표현으로 사용하여 응답 생성 용이
- Persona W AE (Chan et al., 2019)
- WAE (Wasserstein 오토인코더) 사용, 사용자 ID 임베딩을 개인화된 가우시안 혼합 분포로 매핑 후 응답 생성 유도
4. 사용자 대화 기록 기반 방법
- DHAP (Ma et al., 2021)
- 역사 메모리 사용하여 동적 쿼리 인식 사용자 프로필 구축, 개인화된 디코더로 응답 생성
- 사용자 대화 기록으로부터 사용자 프로필을 직접 학습하기 때문에, 제안하는 방법과 가장 관련 있는 기초 모델
4.3 Implementation Details
- 여러 하이퍼파라미터 세트를 실험하여 최적 모델 선택
- 최종 하이퍼파라미터:
- 임베딩 및 Transformer 숨겨진 유닛의 차원: 768
- Transformer의 헤드 수: 12
- Transformer 레이어 수:
- 쿼리 인코더: 2
- 디코더: 12
- 주제 수: 15
- 유사 사용자 수: 10
- 선택된 프로파일 토큰 수:
- Weibo 데이터셋: 200
- Reddit 데이터셋: 30
- 배치 크기: 128
- 디코딩 전략으로 누클리어스 샘플링 사용 (Holtzman et al., 2020 인용)
- 훈련 Refiner를 위한 Adam 옵티마이저 사용 (Kingma and Ba, 2015)
- 생성기를 위한 AdamW 옵티마이저 사용 (Loshchilov and Hutter, 2019) 및 워밍업 방법 적용
- 코드 공개됨
4.4 Evaluation Metric-based Evaluation
- 다양한 지표를 사용한 평가
- (1) BLEU-1/2 및 ROUGE-L: 생성된 응답과 실제 정답 간의 유사성을 측정하는 전형적인 단어 중첩 기반 지표.
- (2) Distinct-1/2: 생성된 응답에서 유니그램 또는 바이그램의 수를 고려하여 다양성을 평가.
- (3) 임베딩 기반 지표: 생성된 응답과 실제 정답 간의 의미적 유사성을 측정하는 평균, 극단값, 탐욕적 방식의 지표.
- (4) 개인화 대화 모델 지표: 대화 이력에서 반영된 정보량을 측정하기 위해 두 가지 맞춤 지표 사용.
- Persona-F1 (PF1): 생성된 응답과 대화 이력 모두에서 공통적으로 나타나는 유니그램의 F1 값을 계산.
- Persona Coverage (P-Cover): 생성된 응답과 실제 정답 간의 IDF-가중 단어 중첩을 계산, 서로 다른 단어의 중요성을 고려.
- 인간 평가
- 인간 언어의 변동성 때문에 실제 정답과 다를 수 있는 응답 또한 적합할 수 있음.
- 세 명의 교육받은 평가자가 생성된 응답을 평가하며, 세 가지 측면 (가독성, 정보성, 개인화)을 고려.
- 가독성과 정보성은 [1, 3] 스케일로 품질 평가, 개인화는 [0, 1] 스케일로 반영된 정도 평가.
- 표 3: Weibo 및 Reddit 데이터셋에 대한 지표 기반 평가 결과
- 최고의 결과는 굵게 표시되고, “†”는 t-검정에서 p값 < 0.05의 유의미한 개선을 나타냄.
4.5 Experimental Results
- 메트릭 기반 평가
- 표 3에서 다양한 메트릭 하의 모델 성능을 비교.
- MSP 모델이 두 데이터셋에서 모든 메트릭에서 기본 모델보다 우수한 성능을 보임.
- 통계적으로 유의미한 차이 (t-test, p-value < 0.05).
- 요약:
- MSP는 중복 기반 메트릭에서 성능 향상.
- 선택된 토큰의 도움이 있어 실제 정답과 더 유사한 응답 제공 가능.
- 다양성 메트릭에서 더 높은 고유 값은 생성된 응답의 다양성을 보여줌.
- 사전 정의된 프로필 기반 방법과 사용자 대화 이력 기반 방법이 성능 우수.
- 중복된 단어 생성 외에도 임베딩 메트릭 향상은 모델이 더 의미론적으로 관련 있는 응답을 생성했음을 나타냄.
- 개인화 메트릭의 증가로 사용자 특정 정보를 더 잘 통합함을 암시.
- DHAP에 비해 유의미한 개선이 이루어져 사용자 대화 이력에서 더 많은 개인화 정보를 추출 가능.
- MSP는 중복 기반 메트릭에서 성능 향상.
- 인간 주석
- Weibo 데이터셋의 인간 주석 결과는 표 4에 수록.
- Fleiss Kappa 값은 약 0.62로, 세 명의 주석자 간의 상당한 합의 도출.
- 인간 주석 결과는 메트릭 기반 평가 결과와 일치.
- 두 결과 모두 모델의 유창하고 정보가 풍부하며 개인화된 응답 생성 능력을 입증.
- 비개인화 방법과 비교하여 사용자 ID 기반 방법은 개인화를 향상시키지만 가독성 감소.
- 사용자 대화 이력 기반 방법(DHAP 및 MSP)은 높은 가독성과 정보성을 유지하며 개인화 개선.
- 결과 요약
- 표 5에 Weibo 데이터셋에 대한 앙상블 실험 결과.
- 전체 MSP 모델과 다양한 구성 요소 제거 시 성능 변화 관찰.
- 각 제거 항목은 BLEU-1, BLEU-2, P-Cover를 통해 성능 저하를 기록함.
5 Further Analysis
-
모델 분석: Weibo 데이터셋의 결과를 기반으로 추가 분석을 수행하고, Reddit 데이터셋에서도 유사한 결과를 관찰함.
- 제거 연구 (Ablation Study):
- 사용자 리파이너 제거: 임의로 샘플링한 사용자로 모델 학습 시 모든 메트릭 성능 저하. 이는 MSP 모델이 현재 사용자와 관심사를 공유하는 사용자를 선택하여 응답 품질을 향상시킬 수 있음을 보여줌.
- 주제 리파이너 제거: 전체 대화 이력을 제공할 때 성능 저하 발생. 대화 이력의 다양한 주제가 노이즈를 유발하여 토큰 리파이너가 유용한 토큰 추출에 방해가 됨.
- 토큰 리파이너 제거: 모든 대화 이력을 생성기에 직접 공급 시 성능 저하 발생. 토큰 선택의 필요성과 효과를 시사함.
- 전체 대화 이력 대신 선택 전략을 사용하면 학습 시간을 41.6% 감소시켜 효율성을 크게 증가시킴.
- 개인화 정보의 영향:
- 현재 사용자 프로필이나 유사 사용자 프로필 중 하나를 제거하면 성능 저하. 특히 현재 사용자 프로필의 제거가 개인화 효과에 더 큰 영향을 미침.
- 유사 사용자 프로필은 BLEU-1/2에 significant effect, 응답 생성에 풍부한 정보를 제공.
- 합동 훈련 검증:
- 토큰 리파이너의 추가 감독 신호 없이 유용한 정보 추출이 불가능함을 나타냄. 문장 매칭 작업 제거 시, 토큰 리파이너는 현재 쿼리에 관련된 токены를 추출하나, 개인화된 응답 생성에는 덜 유용함.
- 선택 메커니즘의 영향:
- 전통적인 검색 방법(BM25)으로 리파이너를 대체하여 실험. 검색 전략은 단어 중첩 및 임베딩 기반 메트릭에서 유사한 성능을 보였음.
- 그러나 다양성과 개인화 메트릭에서 저조한 성과를 나타내어, 선정되지 않은 정보가 너무 일반적임을 보여줌.
- 개인화 토큰 수의 영향:
- MSP에서는 응답 생성을 위한 개인화 토큰을 추출하기 위해 세 가지 리파이너가 설계됨. 더 많은 토큰을 사용할수록 응답 생성 품질이 향상됨.
- 약 200개의 개인화 토큰 선택 시 최적의 성과, 그 이상에서는 노이즈로 인해 성능 저하. 대화 이력이 노이즈가 많음을 확인하고 정보 선택이 효과적이고 필요함을 뒷받침함.
6 Conclusion
- 본 연구에서는 개인화된 응답 생성을 위한 MSP 모델을 제안함.
- 이전 연구와의 차별점:
- 대규모 대화 이력에서 쿼리 인식 페르소나 정보를 추출하기 위해 리파이너 구조를 활용함.
- 다중 수준 리파이너:
- 대화 이력에서 유용한 정보를 희소하게 추출.
- 유사한 사용자의 정보를 활용하여 현재 사용자의 개인화를 향상시킴.
- 실험 결과:
- 제안한 모델이 정보적이고 개인화된 응답을 생성하는 데 효과적임을 입증.
Comments