[논문리뷰] Knowledge-enhanced Mixed-initiative Dialogue System for Emotional Support Conversations (ACL 2023)
요약: 본 연구는 감정 지원 대화에서 사용자와 시스템이 모두 주도권을 가지는 혼합 주도형 시스템에 대한 분석을 수행하고, 이를 위한 지식 강화 혼합 주도형 프레임워크(KEMI)를 제안하여 효과성을 입증한다.
1 Introduction
- 배경
- Covid-19 회복 노력 중 감정적 지원이 중요함.
- 팬데믹으로 인한 감정적 고통과 정신 건강 문제의 증가.
- 감정 지원 대화 시스템 (ESC)
- 정신 건강 지원, 상담, 동기 부여 면접을 포함하여 사용자에게 즉각적이고 편리한 감정적 지원 제공.
- 혼합 주도(Mixed Initiative)
- 사용자와 시스템이 상호 주도적으로 대화를 이끌어나가는 특징.
- 기존 ESC 시스템에서 혼합 주도 개념이 연구되지 않음.
- 혼합 주도의 필요성 분석
- ESC 시스템과 공감 대화(ED) 간의 상호 작용 패턴 분석.
- ESC 시스템은 사용자 질문에 대한 명확한 답변을 위해 주도적으로 질문을 던지는 반면, ED는 주로 감정을 반영하는 역할.
- 혼합 주도 ESC에 대한 도전 과제
- 대화 중 시스템이 언제 주도를 가져가야 하는가?
- 시스템이 하위 대화를 시작하기 위해 필요한 정보는 무엇인가?
- 시스템이 혼합 주도 상호 작용을 어떻게 촉진할 수 있는가?
- 혼합 주도 ESC 문제 정의
- 세 가지 하위 작업:
- 전략 예측: 다음 턴의 혼합 주도 전략 결정.
- 지식 선택: 다음 턴에 필요한 지식 수집.
- 응답 생성: 적절한 혼합 주도 전략과 지식을 이용한 감정적 지원 응답 생성.
- 세 가지 하위 작업:
- 제안하는 새로운 프레임워크: KEMI
- 감정적 지원 대화를 위한 혼합 주도 대화 시스템 구축.
- 사용자 발화를 상식 지식으로 확장하여 하위 그래프 검색을 수행.
- 주요 기여 사항
- ESC 시스템에서 혼합 주도 상호 작용을 측정하기 위한 분석 방법 제안.
- 외부 지식을 활용한 혼합 주도 프레임워크 KEMI 제안.
- 혼합 주도가 ESC에서 중요하며, 제안된 방법이 기존 방법을 초월함을 실험적으로 증명.
2 Related Works
- 감정 지원 대화
- 미세한 감정 분석 연구 (Zhang et al., 2022; Li et al., 2022a).
- 초기 감정 채팅 연구는 사용자 감정 감지 및 응답 생성에 감정 신호 통합에 중점 (Li et al., 2017; Zhou et al., 2018; Wei et al., 2019; Song et al., 2019).
- 공감 대화 시스템의 발전: 감정 인식 응답 생성 및 감정 스타일 전이에서 진화 (Rashkin et al., 2019; Lin et al., 2019; Majumder et al., 2020; Sharma et al., 2021).
- 최근 연구: 외부 지식을 활용하여 감정 추론 능력 향상 (Zhong et al., 2021; Li et al., 2022b; Sabour et al., 2021; Shen et al., 2020, 2022).
- ESC 시스템도 공감 지식을 활용하지만, 일반 상식 지식은 구체성이 부족하여 유의미한 응답 생성에 한계 있음.
- 본 연구는 생성적 상식 모델을 사용하여 외부 지식 그래프에서 사례 지식을 검색.
- 혼합 주도 대화
- 최근 다양한 대화를 위한 혼합 주도 대화 시스템 개발 노력 (Zamani et al., 2020; Wu et al., 2019).
- ESC 시스템에서 혼합 주도 대화의 중요성에도 불구하고 관련 연구 부족.
- 연구 범위: 대화 전략 인식 및 대화 행위 분석 (Liu et al., 2021; Malhotra et al., 2022).
- 연구는 주로 지원 전략 예측에 중점, 실제 혼합 주도 상호작용은 포함되지 않음.
- 혼합 주도 측정은 대화 품질 평가의 중요한 관점으로 언급됨 (Vakulenko et al., 2020).
- 인간 평가의 높은 비용으로 인해 사용자 시뮬레이션을 통한 평가 연구 (Sekulic et al., 2022; Zhang and Balog, 2020).
- 본 연구는 ESC 시스템의 혼합 주도의 특성을 측정하기 위한 여러 지표를 조사.
3 Preliminary Analysis
- EAFR 스키마와 메트릭스
- 대화의 주도성을 분석하기 위해 EAFR 주석 스키마를 제안.
- 주석 스키마는 발화 내용을 다음 네 가지 카테고리로 분류:
- 표현 (User-initiative)
- 행동 (System-initiative)
- 피드백 (User Non-Initiative)
- 반영 (System Non-Initiative)
- 각 발화는 튜플 형태로 주석 처리되어 분석됨:
\((r_i, t_i, v_i, e_i)\)
- \(r_i\): 발화자 역할 (User(U), System(S))
- \(t_i\): 주도성 유형 (Initiative(I), Non-Initiative(N))
- \(v_i\): 원-핫 어휘 임베딩
- \(e_i\): 감정 강도 수준 (1~5)
- 감정 지원 메트릭스:
- Proactivity: 시스템의 주도성 비율. \(Pro = \frac{\sum_{i=1}^{n} \mathcal{I}(r_i = S, t_i = I)}{\sum_{i=1}^{n} \mathcal{I}(r_i = S)}\)
- Information: 시스템이 대화에 제공하는 정보량. \(Inf = \frac{\sum_{i=1}^{n} \sum_{k=1}^{ \vert V \vert } \mathcal{I}(r_i = S, v_{ik} = 1, \sum_{j=1}^{i-1} v_{jk} = 0)}{\sum_{i=1}^{n} \mathcal{I}(r_i = S)}\)
- Repetition: 사용자가 제시한 주제에 대한 시스템의 반복 정도. \(Rep = \frac{\sum_{i=1}^{n} \sum_{k=1}^{ \vert V \vert } \mathcal{I}(r_i = S, v_{ik} = 1, \sum_{j=1}^{i-1} v_{jk}[r_j = U] > 0)}{\sum_{i=1}^{n} \mathcal{I}(r_i = S)}\)
- Relaxation: 사용자의 감정 강도의 변화. \(Rel = \frac{1}{\sum_{i=1}^{n} \mathcal{I}(r_i = S)} \sum_{i=1}^{n} Rel[r_i = S]\)
- ESC에서 혼합 주도의 필요성 분석
- EMPATHETIC DIALOGUES(ED)와 EMOTIONAL SUPPORT CONVERSATIONS(ESC) 간의 상호작용 패턴 분석.
- 대화 흐름, 감정 강도 변화, 감정 지원 메트릭의 시각화를 통해 분석.
- 혼합 주도의 도전 과제
- 혼합 주도 상호작용의 중요성 확인.
- 주요 도전과제:
- 시스템이 대화 중 주도성을 갖추어야 하는 시점
- 시스템이 하위 대화를 시작하기 위한 정보
- 시스템이 혼합 주도 상호작용을 촉진하는 방법
- 문제 정의
- ESC 문제 정의: 대화 맥락 \(C = \{u_1, u_2, ..., u_t\}\)와 사용자의 문제 상황 \(s\)가 주어질 때, 목표는 타겟 응답 \(r\)을 생성하는 함수 \(p(r \vert C, s)\)를 추정하는 것.
- 혼합 주도 감정 지원 대화 문제에 대한 세 가지 하위 작업 정의:
- 전략 예측
- 지식 선택
- 응답 생성
4 Method
- KEMI 프레임워크는 외부 지식을 활용하여 혼합 주도 응답을 생성하는 것을 목표로 함
- 구성 요소:
- 지식 획득 (Knowledge Acquisition)
- 혼합 주도 응답 생성 (Mixed-initiative Response Generation)
- 구성 요소:
4.1 Knowledge Acquisition
- 일반 상식 지식은 ESC(Emotion Support Conversation) 시스템에서 감정 추론을 향상시키기 위해 널리 사용됨
- 하지만 일반 상식 지식은 간략하고 특정 맥락 정보가 부족함
- HEAL(대규모 정신 건강 지식 그래프)에서 ESC의 실제 사례를 검색하여 상식 지식의 부족을 보완하는 방법 제안
4.1.1 Query Expansion with COMET
- 사용자 발화 \(u_t\)를 쿼리로 사용하여 HEAL KG에서 실제 사례를 검색
- 사용자 발화 정보가 제한적이므로 COMET를 사용하여 추가 정보를 생성
- COMET에 \(p \in \{[xReact], [xIntent], [xWant], [xNeed], [xEffect]\}\)를 입력하여 각 관계에 대한 일반 상식 추론 \(c_p\) 생성
- 확대된 쿼리 \(\hat{u}_t = \{u_t, \{c_p\}\}\)로 표현됨
4.1.2 Query Graph Construction
- HEAL의 실제 사례는 그래프 구조로 표현됨
- 응답 생성 관련 4가지 노드 유형:
- 기대(expected)
- 감정 상태(affective state)
- 스트레서(stressor)
- 응답(response)
- 노드 간의 연결을 따라 에지를 구성하여 감정 지원 대화에서의 관계를 반영
4.1.3 Subgraph Retrieval
- HEAL에서 모든 서브그래프를 열거하는 대신, 관련 서브그래프를 선택하는 방안 제안
- 문장-BERT를 사용하여 쿼리와 HEAL 간의 의미적 유사성을 모델링
- 상위 K개의 엔티티를 검색 후, 그래프의 에지 연결에 따라 서브그래프 생성
- 최종적으로 상위 N개의 후보 서브그래프를 지식 \(K\)로 채택
4.2 Mixed-initiative Response Generation
- 대화 맥락 \(C\)와 검색된 지식 \(K\)를 인코딩하여 분산 표현 생성
- 사용자 및 시스템 역할을 구분하기 위해 특별 토큰 추가
- Pretrained language models (PLMs)인 GPT2를 활용하여 믹스드 주도 감정 지원 대화를 Seq2Seq 문제로 재구성
- 입력 및 출력 시퀀스를 토큰의 순서로 선형화하여 모델 훈련
- 목표: 최대화 음의 로그 우도 \(L= -\frac{1}{L} \sum_{l=1}^{L} \log P(Y_l \vert Y_{<l}; X)\)
5 Experiment
- 실험 설정
- 데이터셋
- ESConv:
- 1,300개의 대화, 38,365개의 발언과 8개의 지원 전략 포함
- 원본 train/dev/test 분할 사용
- MI:
- 284개의 상담 세션, 22,719개의 발언과 10개의 행동 전략 포함
- 무작위로 train/dev/test를 8:1:13 비율로 나눔
- ESConv:
- 평가 메트릭
- 전략 예측 메트릭으로 Macro F1 사용
- 응답 생성 평가를 위해 Perplexity (PPL), BLEU-n (B-n), ROUGE-L (R-L) 포함
- 베이스라인
- 비 PLM 및 PLM 기반 방법과 비교, Transformer 기반 방법 (Transformer, MoEL, MIME) 및 BlenderBot 기반 방법 (BlenderBot, BlenderBot-Joint, GLHG, MISC) 포함
- 구현 세부사항
- KEMI는 BlenderBot 모델 기반
- 학습률 3e-5, warmup step 100 설정
- 최대 입력 및 목표 시퀀스 길이는 각각 160 및 40으로 설정
- HEAL에서 top-1 서브그래프를 지식으로 사용
- 훈련 epoch 5 설정
- 데이터셋
- 전반적인 성능
- BlenderBot 기반 방법들이 Transformer 기반 방법들보다 성능이 우수함
- GLHG와 MISC는 상식 지식을 효과적으로 활용하여 응답 생성 성능 향상
- KEMI가 다른 방법들에 비해 상당한 성능 개선을 보임
- 인간 평가
- 생성된 응답을 비교하기 위해 5가지 측면 (유창성, 식별, 위안, 제안, 전체적)에서 인간 평가 실시
- KEMI가 initative 상호작용에서 두 베이스라인 (BlenderBot-Joint, MISC)보다 유의미한 개선을 보임
- 절삭 연구
- 각 하위 작업과 지식 유형이 최종 성능에 미치는 영향을 조사
- HEAL 지식이 전략 예측에 중요한 역할을 하며, 인지 지식이 응답 생성 작업에 가장 효과적임
- 혼합 주도 분석
- KEMI와 다른 베이스라인을 대상으로 혼합 주도 분석 실시
- KEMI는 비슷한 대화 진행 양상을 보이며 사용자의 감정 집중도에 긍정적인 영향을 미침
- 사례 연구
- KEMI의 우수성을 설명하기 위해 생성된 응답과 MISC, BlenderBot의 응답 비교
- KEMI는 더 구체적이고 유용한 제안을 통해 사용자의 감정 집중도를 효과적으로 감소시 키는 응답 생성
6 Conclusions
- 본 연구에서는 ESC(Emotional Support Conversation) 시스템에 있어 혼합 주도(interaction)의 특성을 분석하기 위한 새로운 분석 프레임워크를 설계함.
- 분석 결과, 혼합 주도 상호작용은 ESC 시스템에서 필수적이며 중요함을 보여줌.
- 이를 위해 KEMI 프레임워크를 제안하여 혼합 주도의 ESC 문제를 해결하고자 함.
- KEMI는 실제 사례 지식을 대규모 정신 건강 지식 그래프에서 쿼리 확장 및 하위 그래프 검색을 통해 검색.
- 이후 다중 작업 학습을 통해 전략 예측 및 응답 생성을 수행.
- 다양한 실험 결과 KEMI가 기존 방법들보다 자동 및 인간 평가에서 우수한 성능을 보임.
- 실제 사례 지식을 통합하는 효과와 KEMI의 혼합 주도 상호작용에 대한 우수성을 입증함.
제한 사항
- 혼합 주도 상호작용 분석의 첫 시도로서 제안된 메트릭은 더 강력한 평가를 위해 개선될 수 있음.
- 지식 검색이 본 연구의 초점이 아니기에 다양한 검색 방법 논의가 부족함.
- 제안된 방법은 전문가 또는 지식 있는 작업자가 구축한 정신 건강 관련 지식 그래프를 추가로 요구하며, 이는 일부 응용 프로그램에서 얻기 어려울 수 있음.
- 다른 지식 집약적인 작업과 달리, ESC 시스템 구축에 있어 전문 지식의 중요성을 강조함.
윤리적 고려사항
- 채택된 데이터셋은 공개적으로 이용 가능하고 전문가 또는 훈련된 주석가에 의해 수집된 벤치마크임.
- 모든 개인 식별 가능 및 민감 정보는 필터링 되었으며, 치료 권고나 진단 주장은 없음.
- 제안된 방법은 기존 ESC 시스템보다 안전한 방향으로 나아가고자 하는 한 걸음으로 볼 수 있음.
- 이 방법은 해로운 정보를 필터링하여 유지되는 정신 건강 지식 그래프에서 정보를 검색하며, 응답 생성 과정에서의 무작위성을 완화하고 긍정적인 응답으로 가이드를 제공함.
- 감정 강도 예측 분석은 실제 심리학자에게의 이관을 호출하는 경고 메커니즘 역할을 할 수 있음.
7 Limitations
- 첫 시도:
- 감정지원 대화에서 혼합 주도 상호작용을 분석한 첫 번째 시도로, 제안된 메트릭은 더 강력한 평가를 위해 개선될 여지가 있음.
- 지식 검색:
- 이 작업의 초점이 지식 검색이 아니므로, 다양한 검색 방법의 선택에 대한 논의가 부족함.
- 기존의 대규모 지식 그래프에서 지식 검색을 개선할 여지가 많음.
- 밀접하게 연결된 지식 그래프에서 지식을 검색하기 위한 더 효율적인 방법을 연구할 필요가 있음.
- 전문가 지식 그래프 필요:
- 제안된 방법은 전문가나 지식인에 의해 구성된 추가적인 정신 건강 관련 지식 그래프를 필요로 하며, 일부 응용 프로그램에서는 입수하기 어려울 수 있음.
- 개방 도메인 지식(예: Wikipedia)의 이점을 얻을 수 있는 다른 지식 집약적 작업과는 달리, 도움을 주고 안전한 ESC 시스템을 구축하기 위해 지식의 전문성이 중요함.
8 Ethical Considerations
- 사용된 데이터셋은 공공적으로 이용 가능하며 전문가 또는 잘 훈련된 애널리스트들이 수집한 것입니다.
- 모든 개인 식별 가능 정보 및 민감한 정보(예: 사용자 및 플랫폼 식별자)는 필터링되어 있습니다.
- 치료 추천이나 진단 주장을 하지 않습니다.
- 제안된 방법은 기존의 감정 지원 대화 방법에 비해 안전한 ESC 시스템으로 나아가는 진전을 나타냅니다.
- 방법은 저명한 정신 건강 지식 그래프에서 지식을 검색하며, 유해한 정보가 필터링될 수 있습니다.
- 지식 강화 접근법은 응답 생성 과정에서의 임의성을 줄이고 긍정적인 응답으로의 안내를 제공합니다.
- 안전하지 않은 사례의 발생을 방지하기 위해 감정 강도 예측 분석이 실제 심리학자로의 인계를 요청하는 경고 기제로 작동할 수 있습니다.
독자 의견
- 본 논문은 인간과 챗봇이 함께 대화를 주도하는 혼합 주도 대화 시스템을 중요하게 생각함.
- 제안된 KEMI 프레임워크는 외부 지식을 활용하여 감정 지원 대화를 위한 혼합 주도 대화 시스템을 구축하는 데 효과적임.
- 실험 결과 KEMI가 기존 방법들보다 우수한 성능을 보이며, 인간 평가에서도 높은 점수를 받음.
- 다음과 같은 향후 연구들을 생각해볼 수 있을 것임.
- EAFR 주석 스키마를 개선하거나 LLM기반의 새로운 메트릭을 제안하여 혼합 주도 대화의 품질을 더 정확하게 평가할 수 있을 것임.
- 다양한 지식 검색 방법을 비교하여 KEMI의 지식 검색 성능을 향상시킬 수 있을 것임.
Comments