7 minute read

요약: 본 연구에서는 정서적 지원(ES) 대화 시스템의 다중 턴 상호작용을 위한 새로운 시스템인 MultiESC를 제안하며, 효과적인 지원 전략 계획과 사용자 상태의 동적 모델링을 통해 성능을 크게 향상시킨다는 내용을 다룬다.


1 Introduction

image

  • 거의 모든 인간은 정서적 고통을 경험하며, 이는 정신 장애가 없는 경우에도 발생할 수 있음.
  • 많은 사람들이 사회적 상호작용을 통해 감정적 지지(Emotional Support, ES)를 찾음 (Langford et al., 1997; Greene, 2003).
  • 그러나 가족과 친구로부터의 ES는 항상 제공되지 않음 (Webber and Mascari, 2018).
  • 시기적절한 지원을 제공할 수 있는 가능성으로 인해, 감정적 지지 대화(Emotional Support Conversation, ESC) 시스템 개발이 주목받고 있음.

  • 초기 ES 데이터셋은 온라인 포럼에서 단일 응답 쌍을 크롤링하여 생성되어, 대부분 단일 턴 대화만 포함됨 (Medeiros and Bosse, 2018; Sharma et al., 2020).
  • 기존 연구의 대부분은 사용자와의 단일 턴 상호작용만 고려하였고, 이는 과도하게 단순화됨.

  • 최근 Liu et al. (2021)에 의해 발표된 ESC ONV는 첫 번째 대규모 다중 턴 ES 데이터셋임.
  • 이들은 다중 턴 ESC를 위한 절차와 지원 전략을 제안하는 ESC 프레임워크를 설계함.

  • 다중 턴 ESC는 여러 새로운 도전에 직면함:
    • 지원 전략 계획: 효과적인 감정적 지원을 위한 특별한 절차와 전략이 필요함 (Greene, 2003; Hill, 2009).
    • 다중 턴 대화에서는 지지자가 상황을 부드럽게 문의하고, 감정에 공감하며, 긍정적인 감정을 유도하는 제안을 제공함.
    • 전략 계획은 단기 효과가 아닌 장기 목표를 고려해야 함.
  • 또 다른 도전은 대화 중 사용자의 상태를 동적으로 모델링하는 것임.
    • 이전 작업은 주로 대화 생성을 향상시키기 위해 사용자의 거친 감정 유형(coarse-grained emotion type)을 감지함. (Lin et al., 2019; Majumder et al., 2020; Li et al., 2020a).
    • 그러나 ESC 같은 경우 사용자의 감정은 주로 동일하며, 감정 강도가 미세하게 변화함.
  • 본 논문에서는 다중 턴 ESC 시스템인 MultiESC를 제안함.
    • 전략 계획을 위해 A* 검색 알고리즘을 영감으로 삼고, 장기 관점에서 사용자 피드백을 예측하여 최적의 전략을 선택함.
    • 사용자 상태 모델링에서 NRC VAD 어휘를 이용해 사용자의 미세한 감정 표현과 원인을 포착함.
  • 요약된 기여사항:
    • MultiESC는 사용자 피드백에 대한 예측을 통한 전략 계획과 사용자 상태 추적을 동시에 수행함.
    • 장기 계획 수평에서 대화 전략 선택을 위한 A*-유사한 사전 고려 휴리스틱을 채택함.
    • 실험 결과 MultiESC가 생성 품질과 전략 계획에서 최신 모델에 비해 유의미한 성과를 보여줌.

2 Related Work

  • 감정 지원 대화 시스템 (ESC)
    • 초기의 감정 지원 데이터셋은 주로 단일 턴 대화로 구성됨 (Medeiros and Bosse, 2018; Sharma et al., 2020).
    • 대부분의 ESC 시스템 개발 연구는 사용자와의 단순한 단일 턴 상호작용만 고려 (Sharma et al., 2021; Hosseini and Caragea, 2021).
    • 다중 턴 ESC 챗봇을 개발한 몇몇 연구는 미리 정의된 템플릿과 수작업 규칙에 의존 (Zwaan et al., 2012), 일반성이 제한됨.
    • Liu et al. (2021)에 의해 첫 번째 다중 턴 ESC 데이터셋인 ESC ONV가 출시됨.
    • Liu et al. (2021)에 이어, Peng et al. (2022)와 Tu et al. (2022)은 데이터 기반의 다중 턴 ESC 시스템을 탐구함.
      • Peng et al. (2022): 전역적 맥락과 지역적 사용자 의도를 포착하기 위해 계층적 그래프 네트워크 제안. 전략 계획은 고려하지 않음.
      • Tu et al. (2022): 상식 지식을 활용한 맥락 인코딩 개선 및 예측된 전략 분포를 통해 응답 생성을 안내함. 그러나 전략 예측 방법은 비교적 초기 단계이며 사용자 피드백 중심의 계획은 고려하지 않음.
  • 공감적 응답 생성 (ERG)
    • ERG (Rashkin et al., 2019)는 ESC와 밀접하게 관련된 연구 분야로, 공감은 감정적 지원 제공에 있어 중요한 능력임 (Greene, 2003; Pérez-Rosas et al., 2017).
    • ERG의 명시적 목표는 사용자의 부정적인 감정을 사전에 진정시키는 것이 아니라, 사용자의 감정에 일치하는 응답을 반응적으로 생성함.
    • 관련 연구: Lin et al. (2019); Majumder et al. (2020); Li et al. (2020a); Zheng et al. (2021); Wang et al. (2021).

3 Preliminaries

  • ESConv:
    • 연구는 ESConv에서 수행됨.
    • 긴 대화 데이터셋으로, 각 대화당 평균 29.8개의 발화 포함.
    • 지원자의 전략과 사용자 피드백 점수와 같은 풍부한 주석 포함.
    • 총 8종의 전략 타입 존재 (예: 질문, 감정 반영, 자기 공개).
    • 사용자 피드백 점수는 대화 중 사용자의 정서적 고통이 얼마나 줄어드는지를 나타냄.
    • 점수는 지원 요청자가 5점 리커트 척도로 매겨짐.
    • 자세한 데이터 통계는 부록에 수록됨.
  • NRC VAD Lexicon:
    • 20,000개의 영어 단어의 Valence-Arousal-Dominance (VAD) 점수 포함.
    • VAD 점수는 단어의 기본 감정을 세 차원에서 측정:
      • Valence (기쁨-불쾌)
      • Arousal (흥분-차분)
      • Dominance (지배-종속)
    • 예시:
      • “loneliness”의 VAD 점수는 \((0.15, 0.18, 0.22)\)
      • “abandon”의 VAD 점수는 \((0.05, 0.52, 0.25)\)
    • VAD 모델은 다양한 감정을 포착하고 비교 가능하게 함.
  • ESC 문제 공식화:
    • 대화의 i번째 라운드에서 시스템과 사용자의 발화는 각각 \((x_i, y_i)\)로 나타냄.
    • 사용자의 상태는 \(u_i\) \((i=1, 2, ..., n_R)\)로 표현됨.
    • 모든 지원 전략의 집합은 \(S\)로 표기됨.
    • t번째 턴에서, 대화 이력 \(H_t = \{(x_i, y_i)\}_{i=1}^{t-1}\)가 주어졌을 때,
      • 시스템은 \(H_t\)에서 사용자 상태 \(U_t = \{u_1, u_2, ..., u_{t-1}\}\)를 추적하고,
      • 적절한 지원 전략 \(\hat{s}_t \in S\)를 사용하여 다음 발화 \(x_t\)를 생성함.
    • ESC는 항상 시스템(또는 지원자)에 의해 시작된다고 가정함.
  • 모델 구조:
    • 사용자 상태 모델링 모듈의 아키텍처는 서로 다른 라운드에서 상태를 감지 및 처리함.

4 Methodology

image

  • 제안된 시스템 Multi-ESC는 네 개의 모듈로 구성됨.
    • 대화 인코더: 대화 이력을 \(H_t\)로 변환하여 임베딩 \(H_t\) 생성.
    • 사용자 상태 모델링 모듈: 사용자 상태 정보를 추출하여 임베딩 \(U_t\) 생성.
    • 전략 계획 모듈: 주어진 \(H_t\)와 \(U_t\)를 바탕으로 전략 \(s_t\) 선택.
    • 발화 디코더: 선택된 전략 \(s_t\)를 사용하여 발화 \(x_t\) 생성.

4.1 대화 인코더

  • Transformer 인코더를 사용하여 구현.
  • 대화 이력 \(H_t\)의 발화를 연결하고 마지막 \(N\) 토큰만 사용하여 입력 시퀀스 생성.
  • 생성된 대화 이력 임베딩은 \(H_t \in \mathbb{R}^{N \times d_{emb}}\).

4.2 사용자 상태 모델링

image

  • 대화의 i번째 라운드에서 사용자의 상태 식별:
    • 감정 원인 \(c_i\)를 감정 원인 탐지기로 추출.
    • 대화 내용 \(x_i, y_i\)와 감정 원인 \(c_i\)를 특수 구분자 토큰과 함께 연결.
  • 입력 시퀀스는 감정 임베딩, 단어 임베딩, 위치 임베딩의 위치 합으로 표현.
  • 감정 임베딩은 여러 감정 벡터로 구성, VAD 공간을 여러 하위 공간으로 나누어 생성.

4.3 전략 계획

image

  • 전략 점수 함수는 대화 이력과 잠재적 사용자 피드백을 고려하여 특정 전략을 채택하도록 평가.
  • 작용; \(\hat{s}_t = \arg\max_{s_t \in S} F(s_t)\)
    • \(F(\cdot)\)는 전략 점수 함수.
  • 전략 점수 계산 과정:
    • SSG (전략 시퀀스 생성기)와 UFP (사용자 피드백 예측기)가 포함됨.
    • 점수 함수는 \(F(s_t) = g(s_t) + \lambda\cdot h(s_t)\)로 정의됨.
    • \(g(s_t)\)는 역사 기반 점수, \(h(s_t)\)는 미래 사용자 피드백을 추정하는 점수.

4.4 발화 디코더

  • 사용자 상태 임베딩 \(U_t\), 대화 이력 임베딩 \(H_t\), 선택된 전략 \(\hat{s}_t\)를 기반으로 다음 발화 \(x_t\) 생성.
  • 발화 디코더는 SSG와 유사한 구조로, 입력 시퀀스 앞에 선택된 전략 임베딩을 추가.
  • 발화의 목표 토큰에 대한 음의 가능성을 손실로 사용.

5 Experiments

  • 실험 설정
    • 기준 모델: 세 가지 공감적 응답 생성기(MoEL, MIME, EmpDG)와 ESC ONV 데이터셋의 최첨단 방법(DialoGPT-Joint, BlenderBot-Joint, MISC, GLHG) 사용.
    • 구현 세부사항:
      • ESC ONV의 원래 분할에 따라 훈련, 검증 및 테스트 진행.
      • MultiESC의 대화 인코더와 발화 디코더는 BART-small 모델을 사용하여 초기화.
      • 감정 벡터는 \(nemo=65\)로 설정하고, \(nV=nA=8\)로 설정.
      • 전략 계획 모듈의 파라미터인 \(\lambda=0.7\), \(L=2\)로 설정.
      • 탐색시 빔 크기 \(k=6\) 사용.
      • MISC와 GLHG 코드 미제공, 원본 논문의 결과 참조.
  • 생성 품질에 대한 자동 평가
    • 평가기준: PPL, BLEU-1/2/3/4, ROUGE-L, METEOR, CIDEr 등.
    • 기준 모델과 비교: MultiESC는 모든 메트릭에서 기준 모델보다 유의미하게 우수함. 특히 CIDEr 메트릭에서 뛰어난 성과 보임.
    • 공감적 생성기들은 PPL과 CIDEr 점수가 낮은 경향, 이는 자주 사용되는 표현을 포함함으로써 발생함.
  • 인간 상호작용 평가
    • 결과: MultiESC는 모든 메트릭에서 MoEL보다 월등히 우수하며, BlenderBot-Joint와의 전반적인 지원 효과에서도 우수함.
    • 각 모델의 성과는 유창성, 공감, 문제 식별, 제안, 전체 효과성 등으로 평가함.
  • 전략 계획 분석
    • 평가 지표: 동정 정확도, 가중치 F1, 피드백 점수.
    • MultiESC는 모든 메트릭에서 다른 모델들보다 뛰어난 성능 보임.
    • 다양한 비율에 따른 MultiESC 변형 분석, 빔 크기를 증가시킬수록 전략 계획 성능이 향상됨.
  • 사례 연구

    image

    • MultiESC의 응답은 배경과 더 일관되며, 두 기준 모델보다 공감적임.
    • “w/o strategy” 모델은 일반적이고 덜 매력적임.
    • MultiESC는 대화 초반부터 사용자의 상황을 적극적으로 탐색하여 감정 지원을 제공하는 방안을 잘 따름.

6 Conclusion

  • 이 논문에서는 다중 회차 감정 지원 대화(ESC) 시스템 개발을 탐구하였으며, 대화 절차를 전략적으로 계획하는 방법에 초점을 맞췄음.
  • 새로운 ESC 시스템인 MultiESC를 제안하였으며, 이는 사용자의 장기적인 반응을 추정하기 위해 탐색적 휴리스틱을 활용하여 전략 계획을 수행함.
  • 사용자 상태를 동적으로 모델링하기 위한 효과적인 메커니즘도 제안함.
  • 실증 결과에 따르면, MultiESC는 생성 품질과 전략 계획 모두에서 강력한 기준선과 비교하여 상당한 개선을 달성함.

7 Limitations

  • 제안된 방법은 기존 기준선에 비해 큰 개선을 보이나, 감정 지원 챗봇 연구는 여전히 갈 길이 멀음
  • 챗봇이 생성하는 발화는 일반적이고 반복적임
    • 사용자 경험에 대한 개인화되고 심층적인 이해를 보여주지 못함
    • 상황을 변화시키기 위한 구체적이고 건설적인 제안을 제공하지 못함
  • 이 문제는 일반 상식 지식을 포함시킴으로써 완화될 수 있음
  • 신뢰할 수 있고 안전한 감정 지원 챗봇 구축 방법도 추가적인 탐색이 필요함
  • ‘감정 지원’의 정의는 주로 일상 대화에서 가족이나 친구에게서 받을 수 있는 동료 지원을 의미함
  • 전문적인 심리 상담이나 치료를 제공하는 챗봇을 구축하겠다는 주장은 아님
  • 자해나 자살 경향이 있는 사용자를 감지하기 위한 위기 경고 메커니즘이 필요함
  • 연구 데이터셋은 생성 시 민감한 개인정보를 필터링함
  • 참여자는 연구 의도에 대해 충분한 정보를 제공받고 공정한 보수를 지급받음

8 Ethical Considerations

  • 연구에서 사용된 “감정적 지원”의 정의는 주로 동료 지원을 의미하며, 전문 심리 상담이나 치료를 제공하는 챗봇을 개발할 의도가 아님.
  • 감정적 지원 시스템 사용 시 주의가 필요하며, 안전한 ESC 시스템 구축을 위한 추가 노력이 요구됨.
  • 자해나 자살 경향이 있는 사용자를 감지할 수 있는 위기 경고 메커니즘이 바람직함.
  • 실험 데이터셋인 ESConv는 민감하고 사적인 정보가 필터링된 공개 벤치마크임.
  • 인간 평가에 참여한 참가자들에게 연구 의도가 투명하게 전달되었으며, 적절한 보상을 받음.

독자 의견

  • 이 논문에서는 다중 턴 감정 지원 대화 시스템을 위한 새로운 시스템인 MultiESC를 제안하였음.
  • MultiESC는 사용자 피드백에 대한 예측을 통한 전략 계획과 사용자 상태 추적을 동시에 수행함.
  • 실험 결과 MultiESC가 생성 품질과 전략 계획에서 최신 모델에 비해 유의미한 성과를 보여줌.

Comments