5 minute read

요약: 본 논문은 공감 능력을 활용한 대화 시스템을 위한 새로운 접근법인 ‘Commonsense-aware Empathetic Chatting Machine (CEM)’을 제안하며, 이는 사용자 상황에 대한 인지를 통해 보다 정보적이고 공감적인 반응을 생성하는 데 중점을 둡니다. 실험 결과, CEM이 기존 모델들보다 우수한 자동 및 인간 평가 결과를 보였음을 확인했습니다.


1 Introduction

  • 일상 대화에서 중요한 특징은 타인에 대한 공감 능력.
  • 공감을 구현하는 방법을 탐구하는 것은 인간과 유사한 대화 시스템으로 가는 중요한 단계.
  • 기존 접근 방식은 사용자의 감정을 감지하고 이를 활용하는 데 주로 초점을 맞추었음.
  • 그러나 공감은 감정과 인지의 두 가지 측면을 포함하므로, 사용자의 감정을 인식하는 것 외에도 사용자의 상황에 대한 인지적 이해가 필요하다고 주장함.
  • 이를 위해, 사용자 상황에 대한 더 많은 정보를 얻기 위해 상식(common sense) 지식을 활용하는 새로운 접근 방식을 제안.
  • 제안한 방식은 EMPATHETIC DIALOGUES 데이터셋에서 평가되었으며, 기존 모델보다 우수한 결과를 보임.
  • 연구의 기여 요약:
    • 상식을 활용하여 대화자의 상황과 감정을 이해하는 방법 제안.
    • 다양한 상식 추론을 사용하여 공감적 응답 생성 향상.
    • 상식 추가로 더 많은 정보와 공감을 표현하는 응답 생성 가능함을 보여줌.

2 Preliminaries

  • 공감 대화 생성
    • 공감(empathy)은 사회 심리학 및 심리 치료 분야에서 명확하게 정의되지 않은 다차원적 개념.
    • 감정적 공감은 타인의 감정을 느낄 수 있게 하며, 인지적 공감은 타인의 상황과 마음 상태를 이해하는 것.
    • 최근 대화 시스템에서 공감을 구현하는 연구가 증가하고 있으며, 사용자의 감정을 감지하는 것이 중요함.
  • 공감과 일반 상식
    • 인지적 공감의 주요 부분은 타인의 상황과 감정을 이해하는 것.
    • 대화 시스템에서, 사용자가 모든 정보를 명시적으로 공유할 것으로 기대하지 않음.
    • 사람들은 일반 상식을 바탕으로 명시적으로 언급되지 않은 것에서 연관성을 찾음.
    • 본 연구는 ATOMIC을 일반 상식 지식 베이스로 사용하여, 일상적인 사건에 대한 일반 상식 관계를 추론.
    • ATOMIC은 각 사건에 대해 여섯 가지 관계를 포함: 사건의 영향(xEffect), 반응(xReact), 의도(xIntent), 필요(xNeed), 원하는 것(xWant).
  • 작업 공식화
    • 실험은 EMPATHETIC DIALOGUES 데이터셋에서 진행됨.
    • 대화 모델은 청중의 역할을 수행하고 공감적인 반응을 생성해야 함.
    • 대화 히스토리는 \(D = [u_1, u_2, \ldots, u_{k-1}]\)로 정의되며, 각 발화의 목표는 공감적이고 정보성이 있어야 함.

3 Methodology

  • 제안된 모델 CEM(Commonsense-aware Empathetic Chatting Machine)은 표준 Transformer 아키텍처 기반
  • 프로세스 5단계로 구성됨:
    • Context Encoding(맥락 인코딩)
      • 대화 이력을 연결하고 특별 토큰 [CLS]를 추가하여 맥락 입력 생성
      • 단어 임베딩, 위치 임베딩, 대화 상태 임베딩 합산: \(E_C = \text{Word} + \text{Position} + \text{Dialogue State}\)
      • 입력을 인코더에 넣어 맥락 표현 \(H_{CTX} = \text{Enc}_{CTX}(E_C)\) 생성
    • Knowledge Acquisition(지식 획득)
      • 다섯 개의 특별한 관계 토큰 추가 후 COMET을 사용해 공통 정보 추출: \(CS_r = csr_1 \oplus csr_2 \oplus \cdots \oplus csr_5\)
      • 정서 정보(xReact)와 인지 정보(xWant, xNeed, xIntent, xEffect)로 구분
    • Context Refinement(맥락 정제)
      • 공통 지식 정보를 맥락 표현에 연결: \(U_{r}[i] = H_{CTX}[i] \oplus h_r\)
      • 각각의 관계 관련 인코더를 사용하여 정제된 표현 생성
    • Knowledge Selection(지식 선택)
      • 모든 재정의된 맥락 연결 후 중요성을 측정하여 응답 생성의 기초로 사용
    • Response Generation(응답 생성)
      • 목표 응답 \(Y = [y_1; \ldots; y_T]\)를 생성하기 위해 디코더 사용: \(P(y_t \vert y_{<t}; C) = \text{Dec}(E_{y_{<t}}, fH_{CTX})\)
  • Training Objectives(훈련 목표)
    • 표준 음의 로그 우도(NLL) 손실 사용
    • 다양성 손실 추가하여 반복적인 응답 억제
  • 실험 및 평가:
    • 여러 가지 기준으로 자동 및 수동 평가 진행
    • 기존 모델과 비교하여 성능 개선됨을 입증

이 연구는 공통 지식을 활용한 정서 및 인지 이해가 응답 생성에 미치는 긍정적인 영향을 보여줌.


4 Task Formulation

  • 대화 히스토리 및 데이터셋
    • EMPATHETIC DIALOGUES라는 데이터셋을 사용하여 실험을 진행.
    • 이 데이터셋은 25,000개의 공감 대화를 포함하며, 각 대화에 대해 32개의 감정 레이블 제공.
  • 작업 정의
    • 모델이 듣는 역할을 수행하고 공감적 응답을 생성해야 함.
    • 대화 히스토리를 \(D = [u_1, u_2, u_3, ..., u_{k-1}]\)로 정의하며, \(u_i = [w_{i1}, w_{i2}, w_{i3}, ..., w_{iM_i}]\)로 구성됨.
    • 목표는 다음 단계의 발화 \(u_k\)를 생성하는 것.
  • 응답 특성
    • 생성된 응답은 일관성 있고 정보가 풍부하며, 화자의 상황과 감정에 공감해야 함.
  • 모델 아키텍처
    • 제안하는 모델인 CEM은 Transformer 기반이고, 다섯 가지 단계로 구성됨:
      1. 맥락 인코딩: 대화의 변별력을 위해 발화들을 연결.
      2. 지식 획득: 다양한 일반 상식 관계에 대한 추론을 생성.
      3. 맥락 정제: 추가 정보로 맥락을 정제.
      4. 지식 선택: 공감적 응답 생성을 위해 영향을 미치는 정보를 선택.
      5. 응답 생성: 최종적으로 응답을 생성.
  • 실험 목표
    • CEM의 효과를 비교하기 위해 여러 베이스라인 모델과의 성능 비교 및 평가 실시.

이러한 작업 정의는 CEM이 어떻게 공감적 응답을 생성하며, 일반 상식을 이용해 사용자의 상황을 보다 잘 이해하려 하도록 돕는지를 설명함.


5 Experiments

  • 기본 모델 선정: 비교를 위해 다음과 같은 기본 모델을 선택함:
    • Transformer: 원래 Transformer 모델로, NLL 손실 최적화를 학습함.
    • Multi-Task Transformer (Multi-TRS): 감정 예측을 추가한 Transformer 모델.
    • MoEL: 사용자 감정에 맞는 각 디코더를 사용하는 Transformer 기반 모델.
    • MIME: 사용자의 감정을 어느 정도 모방하는 Transformer 기반 모델.
    • EmpDG: 다중 해상도 적대적 프레임워크로, 감정 감지를 기반으로 응답 생성함.
  • 구현 세부 사항:
    • PyTorch로 모든 모델을 구현하고, 300차원의 GloVE 벡터로 단어 임베딩을 초기화함.
    • Adam 최적화 알고리즘 사용, 초기 학습률은 0.0001로 설정, 배치 크기 16으로 설정.
  • 자동 평가:
    • PPL(Perplexity)와 Distinct-n (Dist-n) 지표를 사용하여 모델의 응답 품질과 다양성을 평가함.
    • CEM 모델이 PPL에서 가장 낮은 값을 기록, 이는 전체 품질이 높음을 의미함.
    • Dist-n 지표에서 CEM이 기본 모델보다 낮은 Distinct 값을 기록하여 다양성 손실의 중요성을 강조함.
    • 감정 분류 정확도에서도 CEM이 많은 기본 모델들 보다 높은 정확도를 기록함.
  • 인간 평가:
    • 응답의 유창성, 관련성 및 공감 능력 기준으로 평가하는 페어 비교 테스트를 수행함.
    • CEM이 모든 면에서 기본 모델보다 우수함, 특히 공감과 정보 전달에서 더 나은 성과를 보임.
  • 소거 연구:
    • CEM의 각 성분에 대한 효과를 검증하기 위해 세 가지 변형 모델(w/o Aff, w/o Cog, w/o Div)을 사용하여 실험함.
    • 감정 분류 정확도에 있어 정서적 및 인지적 정보가 모두 필요함을 확인함.
    • 다양성 손실을 제거할 경우 응답의 다양성이 크게 감소함을 관찰함.
  • 사례 연구:
    • CEM과 기본 모델에서 생성된 응답을 비교하여 CEM이 사용자 정서와 상황을 더 잘 이해하고, 반영하는 것을 보여줌.
    • 예를 들어, 사용자가 반려견을 얻고 싶다는 의미를 명확하게 이해하고, 그에 따라 적절한 응답을 생성함.

6 Conclusions and Future Work

  • 이 연구에서는 커먼센스를 활용하여 사용자의 상황과 감정을 이해하고, 이를 통해 보다 정보적이며 공감적인 응답을 생성할 수 있는 커먼센스 인식 공감 대화 시스템인 CEM을 제안함.
  • 자동 및 수동 평가 결과, CEM은 공감 응답 생성에서 기존의 방법들에 비해 뛰어난 성능을 보였음.
  • 공감은 감정 표현뿐만 아니라 해당 사용자의 상황에 대한 인지적 이해도 필요하다는 점을 강조함.
  • 향후 연구에서는 CEM의 접근 방식을 다른 공감 응답 생성 및 감정 지원 시스템과 같은 유사한 작업에 적용할 가능성을 탐색할 계획임.

독자 의견

  • 이 논문은 EMPATHETIC DIALOGUES 데이터셋을 사용하여 공감 대화를 모델에 학습함.
  • 모델 아키텍쳐는 Transformer 기반으로, 맥락 인코딩, 지식 획득, 맥락 정제, 지식 선택, 응답 생성 단계로 구성됨.
  • 특히 지식선택 부분은 ATOMIC을 일반 상식 지식 베이스로 사용하여, 일상적인 사건에 대한 일반 상식 관계를 추론함.
  • 실험 결과는 우수했지만, 지식을 추가하는 부분이 모델 성능에 어떤 영향을 미치는지에 대한 추가적인 분석이 필요해 보임.
  • 또한 기존의 심리 및 사회학적 연구 결과를 모델에 적용하는 방법에 대한 논의가 필요해 보임.

Comments