7 minute read

요약: 이 논문은 감정 지원 대화 시스템의 해석 가능성을 강화하기 위해 Emotion-Focused and Strategy-Driven Chain-of-Thought(ESCoT)라는 새로운 응답 생성 방안을 제안하고, 이를 통해 감정 식별 및 조절 과정을 모방하여 대화 데이터셋을 구축하고 검증하는 연구 내용을 다룬다.


1 Introduction

image

  • 정서적 지원의 개념:
    • 상황에 따라 감정, 관심, 애정 등을 표현.
    • 스트레스를 받거나 불안한 사람에게 특히 중요 (Burleson, 2003; Albrecht and Adelman, 1987; Cutrona and Russell, 1987).
  • 정서적 지원의 긍정적 효과:
    • 치료 세션, 고객 서비스, 완화 치료 등 다양한 상황에서 효과적 (Kennelly, 2001; Barnes and Halloway, 2005; Skilbeck and Payne, 2003).
  • 자동화된 정서적 지원 시스템 필요:
    • 신뢰할 수 있는 대화 시스템이 이러한 상호작용을 자동화할 수 있어야 함.
    • 대화 응답의 생성 과정 설명 가능해야 함 (Gohel et al., 2021).
  • ESCoT 스킴:
    • 요청자가 도움을 요청할 때, 지원자는 감정을 식별, 이해, 그리고 적절한 전략 선택 후 응답 (Vincent J. D’Andrea, 1996).
  • 기존 연구의 한계:
    • 정서적 지원 대화 시스템의 해석 가능성 개선을 위한 시도가 있지만, 종합적인 이유 설명을 제공하는 시스템은 없음.
  • 논문의 목표:
    • 해석 가능한 정서적 지원 대화 시스템 구축.
    • 고품질의 대화 데이터 생성을 위해 대형 언어 모델(LLMs) 활용.
  • 정서적 지원 응답 생성 방안:
    • Emotion-focused and Strategy-driven Chain-of-Thought (ESCoT) 제안.
    • 대화 상황과 대화 전략의 중요성 강조.
    • 총 1.7천 개의 대화로 구성된 Emotional Support Dialogue with CoT (ESD-CoT) 데이터셋 구축.
  • 주요 기여:
    1. 해석 가능성을 높이기 위한 ESCoT 자동 데이터 생성 방안 개발.
    2. ESD-CoT 데이터셋 구축 및 수동 교정.
    3. 데이터 생성 방안의 효과성을 평가하기 위한 인간 평가 실시.
    4. ESD-CoT 기반의 해석 가능한 정서적 지원 응답 생성 모델 구축 및 성능 평가 수행.

2 Related Work

  • 감정 지원 데이터셋
    • 감정 지원 대화 시스템의 주요 도전 과제 중 하나는 충분한 데이터셋의 부족.
    • 개인 프라이버시 보호와 전문성 요구로 인해 높은 품질의 공감 및 감정 지원 대화 데이터셋 구축이 어려움.
    • Sharma et al. (2020): TalkLife 및 Mental Health Subreddits 기반으로 EPITOME 모델 지원 데이터셋 구축.
    • Sun et al. (2021): Yixinli 플랫폼의 Q&A를 수집하여 심리 상담 이론에 따라 응답 주석을 달아 PsyQA 중국어 데이터셋 생성.
    • Rashkin et al. (2019): 정서적 맥락의 25k 대화가 포함된 EMPATHETIC DIALOGUES 데이터셋 제안.
    • Liu et al. (2021): ESC 프레임워크를 바탕으로 ESConv 데이터셋 구축.
    • Zheng et al. (2023): LLM을 활용하여 ESC 작업을 위한 AUGESC 데이터셋을 보강.
    • Qiu et al. (2023): ChatGPT를 이용해 단일 회전 대화를 다중 회전 대화로 변환하는 SMILE 접근법 개발.
    • 기존 연구들은 데이터 증강을 대화 연속성 또는 재작성 작업으로 취급하며 감정 지원 대화의 특징에 대한 조정이 부족.
  • 해석 가능한 대화 시스템
    • 대화 시스템의 딥러닝 모델은 복잡성과 불투명성으로 인해 블랙박스처럼 여겨짐.
    • 이는 안전 문제를 유발할 수 있으며, 결정 예측 어려움.
    • 외부 지식 소스를 통합하여 도덕적 및 윤리적 판단 능력을 개선하는 연구 증가.
    • Mehrabi et al. (2022) 및 Kim et al. (2022): 외부 지식과 구조적 추론 경로 통합을 통해 모델 의사 결정 품질 향상 시도.
    • Li et al. (2023): 두 단계 응답 생성 프로세스를 사용하는 해석 가능한 대화 시스템 소개.
    • Izumi et al. (2024): CBT 대화 시나리오 기반 대화 모듈 구축.
    • Bills et al. (2023): GPT-4를 활용하여 언어 모델의 뉴런 행동 해석 탐색.
    • 감정 지원 대화 시스템에서 설명적 추론 개선은 아직 연구되지 않음.
  • 사고 프로세스 유도 (CoT Prompting)
    • Wei et al. (2022): 사고 프로세스를 모방하기 위한 Chain-of-Thought Prompting 도입.
    • CoT를 활용한 다양한 연구들 (Auto-CoT, SP-CoT, PsyCoT 등).
    • Dialogue CoT (Chae et al., 2023): 대화에서 일반 상식 추론을 단계별로 분해하여 생성.
    • Cue-CoT (Wang et al., 2023a): 사용자 상태를 먼저 추론하고 응답 생성.
    • 감정 지원 대화 시스템을 위한 CoT 연구는 아직 미비.

3 ESD-CoT Dataset Construction

image

  • 감정 지원 대화 데이터셋의 수작업 구축은 높은 전문 지식 요구로 인해 매우 비용이 많이 듦.
  • 인간의 위로 방식 모방: 감정 중심 및 전략 중심의 사슬 사고(ESCoT) 방안 제안.
  • 첫 번째 감정 지원 대화와 CoT 데이터셋(ESD-CoT) 구축.

3.1 ESD Construction

  • ESD 구축: 다양한 상황을 생성하고, 이를 바탕으로 대화 생성.
    • 심리 상담 상황 생성: 1,300개의 수작업 주석 상황에서 시작하여 ChatGPT의 컨텍스트 학습 능력을 활용해 추가 생성.
    • 최종적으로 2,943개의 새로운 상황을 확보, 이후 정서 지원 대화 생성 시 활용.

3.1.1 상황 생성

  • 현실적인 심리 상담 상황을 생성하기 위해 ChatGPT의 도움으로 다양한 상황 생산.
  • 수작업 주석된 운영 데이터에서 시작하여, 중복된 상황 및 부적합한 상황(주어 없이 불완전한 문장 등) 제거.

3.1.2 전략 강화

  • 기존의 8개 전략 외 추가적으로 효과적인 전략을 도출.
  • 세 가지 원칙에 따라 전략을 강화:
    1. 각 전략은 다른 측면에 초점을 맞추도록 구분.
    2. 각 전략은 간결하고 이해하기 쉬워야 함.
    3. 전략의 구현은 몇 문장 내에서 쉽게 인식 가능해야 함.
  • 새로운 6가지 전략(요약, 이미지화, 특정화 등) 추가.

3.1.3 대화 생성

image

  • 상황과 강화된 전략을 기반으로 정서 지원 대화 생성.
  • ChatGPT에 적합한 대화 포맷 소개 후, 생성된 상황을 활용하여 대화 생성.
  • 생선된 대화의 질과 다양성을 보장하기 위해 필터링 및 후처리를 통해 고품질 데이터를 확보.

3.1.4 ESD 통계

image

image

image

image

  • ESD 데이터셋의 통계 정보 제공: ESConv와 비교하여 대화 수, 평균 턴 수, 길이 등의 다양한 지표에서 ESD가 더 큼.

3.2 ESD-CoT Construction

  • 모델 해석 가능성의 중요성: 신뢰를 구축하기 위한 ESD-CoT 데이터셋 작성.
  • CoT를 통해 감정 이해 및 조절 과정 모방: 정서, 감정 자극, 개인 평가, 전략 이유 및 응답으로 구성된 5가지 요소 정의.

3.2.1 체인 생성

  • ChatGPT를 활용하여 CoT 자동 생성 후 수작업으로 수정.
  • 각 요소의 명확한 정의와 수정 필요성에 대한 논의.

3.2.2 수작업 수정

  • 초기 CoT의 품질 보장을 위한 수작업 수정 진행.
  • 비정상적인 감정 표현, 구체적 예시 부족, 불필요한 개인 평가, 전략과 응답의 불일치를 해결.

3.2.3 ESD-CoT 통계

image

image

image

  • ESD-CoT의 통계 제공: 대화 턴 수 및 길이가 길며, 정서 표현과 개인 평가에서 자세한 정보 제공.
  • 전략의 배분에 대한 통계 및 각 전략이 최소 100개 샘플을 보유하도록 보장.

의미 분석

  • ESD-CoT 데이터셋의 각 요소에 대한 단어 구름 시각화로 감정, 자극, 개인 평가, 전략 이유 등의 다양한 정보 제공.

4 Experiments

image

  • 데이터셋을 7:1:2 비율로 훈련, 검증 및 테스트 세트로 분할
  • 다양한 사전 훈련된 언어 모델을 대화 응답의 백본 모델로 평가
    • 자동 평가 지표: EM, ES, IA, SR, RE, B-1, B-2, R-L, D-1, D-2
    • 인간 평가 지표: Cohesion, Informativeness, Empathy, Accuracy
  • 성능 비교를 위해 세 가지 백본 모델 사용:
    1. BlenderBot
    2. DialoGPT
    3. LLAMA 2-CHAT
  • LLAMA 2-CHAT이 모든 평가 지표에서 가장 높은 성능을 기록
    • 이는 더 큰 매개변수, 데이터, 인간 피드백으로 훈련된 모델 덕분
    • 감정 지원을 위한 해석 가능성에 중요한 역할
  • 여러 차원에서 모델 생성을 비교하기 위한 아블레이션 연구 실시

    image

    • 전체 체인을 통합한 경우 D-1, D-2에서 최상의 성능 달성
    • 감정 이해 및 감정 식별 요소 제거 시 전략 일관성 감소
  • 인간 평가 결과, 전체 체인이 가장 높은 점수를 기록하며 해석 가능성과 응답의 일관성, 정보성, 공감성을 향상시킴
  • 결론적으로, 전체 체인이 주요 측면에서 최상의 응답을 제공하며 해석 가능한 감정 지원 대화 시스템으로 나아가는 강력한 기반 제시.

5 Conclusion

  • 정서 중심의 대화 시스템 개발: 본 논문에서는 감정을 이해하고 조절하는 인간의 상담 과정을 바탕으로 정서 중심 및 전략 기반의 사고 사슬(ESCoT) 응답 생성 체계를 제안함.
  • ESD-CoT 데이터셋 구축: 감정 지원 대화를 위한 첫 번째 데이터셋인 ESD-CoT를 구축하여 정서 지원의 효과성을 검증함.
  • 효과적인 정서 지원 제공: 실험 및 인간 평가를 통해 ESD-CoT에 기반한 벤치마크가 보다 효과적인 정서 지원을 제공할 수 있음을 확인함.
  • 프론트의 투명성과 신뢰성 강화: 이 데이터셋이 감정 지원 시스템의 투명성과 신뢰성을 높여 사용자와 시스템 간의 신뢰 구축에 기여할 것을 기대함.
  • 윤리적 고려 사항: 데이터셋 개발 시 윤리적 문제에 주의를 기울였으며, 편향, 공격적이거나 부적절한 내용을 제거하는 노력을 기울임.
  • 제한점 언급: 데이터셋 규모가 상대적으로 작으며, 자동 수정 방법의 개발이 필요함. 또한, 다양한 개인 정보를 포함하여 감정 지원 대화 데이터의 다양성을 증가시킬 계획임.
  • 향후 연구 방향: 복합 전략을 탐색하여 효과적인 정서 지원을 제공할 수 있는 가능성을 연구할 예정임.

6 Ethics Statements

  • 감정 지원 대화 시스템의 해석 가능성
    • 실제 응용에서의 중요성이 증가하고 있음에 따라, 데이터 세트를 개발할 때 윤리적 이슈에 대한 신중함이 필요하다는 점을 인식함.
  • 데이터 세트 생성 목표
    • 해석 가능한 감정 지원 대화 시스템 및 데이터 세트 생성에 초점을 맞추며, 데이터 출처 사용 계약을 엄격히 준수함.
  • 편향된 내용 제거 노력
    • 잠재적인 윤리적 피해를 피하기 위해, 편향된, 공격적인, 부적절한 내용을 제거하기 위해 노력함.
  • 인간 주석자 보상
    • 모든 인간 주석자와 평가자는 개인 작업 시간에 따라 보상을 지급받음.
  • 투명성 및 신뢰 구축
    • 데이터 세트가 감정 지원 시스템의 응답에 대한 투명성과 신뢰성을 높여 사용자의 이해를 증진시키는 데 기여할 수 있기를 희망함.

7 Limitations

  • 데이터셋 규모:
    • ChatGPT를 활용하여 생성 비용을 줄였지만, 수작업 수정 비용의 제약으로 데이터셋의 규모가 상대적으로 작음.
  • 자동화 개선 필요:
    • 미래 작업에서는 수작업 요소를 줄이고 데이터셋 수집 비용을 더욱 낮추기 위해 자동화된 수정 방법 설계에 집중할 필요가 있음.
  • 다양성 향상 계획:
    • 다양한 대화 데이터를 생성하기 위해 풍부한 상황과 확장된 전략을 포함한 프롬프트를 사용하였고, 개인화된 정보(예: 성격)를 도입하여 데이터셋의 다양성을 더욱 향상시킬 계획임.
  • 전략 주석의 한계:
    • 현재 공개된 감정 지원 데이터셋의 전략 주석은 단일 전략에만 초점을 맞추고, 복합 전략은 간과하며, 다중 전략 상황에서 주요 전략만 주석.
  • 복합 전략 탐색 고려:
    • 향후에 복합 전략을 탐색하여 보다 효과적인 감정 지원을 증명할 가능성을 고려하고 있음.

독자 의견

  • 본 연구는 감정에 초점을 맞춘 CoT와 감정 지원 대화 데이터셋을 구축하고, 이를 통해 감정 지원 대화 시스템의 해석 가능성을 높이는 방법을 제안함.
  • 추후 심리상담 챗봇 등의 감정 서비스에 적용할 수 있을 것으로 기대됨.
  • 하지만 본 연구는 심리학적인 측면을 고려하지 않았기 때문에 실제 심리학에서 사용하는 이론과의 관련성을 확인하기 어려움.
  • 추후 연구에서 심리학적 이론을 적용하여 더욱 효과적인 감정 지원 대화 시스템을 구축할 수 있을 것으로 생각됨.

Comments