[논문리뷰] Towards Emotional Support Dialog Systems (ACL 2021)
요약: 이 논문에서는 정서적 지지 대화(ESC) 작업을 정의하고, 정서적 지원 대화 데이터셋(ESConv)을 구성하여 효과적인 정서적 지지를 제공하기 위한 대화 시스템 연구에 기여하고자 한다. 연구 결과, 지원 전략의 중요성을 강조하고 ESConv의 유용성을 보여준다.
1 Introduction
- 감정 지원(ES)은 개인의 감정적 고통을 줄이고, 그들이 직면한 도전에 대해 이해하고 극복할 수 있도록 돕는 것을 목표로 함.
- ES는 사용자와 상호작용하는 대화 시스템에 중요한 기능으로 훈련될 필요가 있음.
- 사회적 상호작용, 정신 건강 지원, 고객 서비스 등 다양한 환경에서 활용됨.
- 사람들은 지지적인 응답을 제공하는 대화 시스템을 선호한다는 연구 결과 존재.
- 감정 지원을 제공하는 것이 직관적이지 않기 때문에 효과적인 대화를 위한 절차와 기술이 제안됨.
- 대화의 질을 높이기 위해, 도움이 필요한 사람의 문제를 탐색하고 이해하는 것이 주요한 단계임.
- 지원자가 적절한 조언을 하기 위해서는, 도움이 필요한 사용자의 감정과 경험을 파악해야 함.
- 감정 지원 대화에서 에너지와 문제 해결을 위한 행동(예: 제안)을 포함해야 함.
- 데이터 기반의 감정 지원 대화 시스템에 대한 연구는 제한적이며, 적절한 데이터와 디자인이 부족함.
- 본 논문에서는 감정 지원 대화(ESC)라는 과제를 정의하고 이를 위한 ESC 프레임워크를 제안함.
- 프레임워크는 도움 기술 이론에 기초하여 세 가지 단계(탐색, 위로, 행동)를 포함함.
- 감정 지원 대화 데이터셋인 ESConv를 구축하고, 대화의 질을 보장하기 위해 여러 가지 노력을 기울임.
- 지지 전략을 활용했을 때 감정 지원의 유의미한 개선을 관찰하였으며, 모델이 감정적 지지자(emotional supporter)의 행동을 모방할 수 있음을 입증함.
2 Related Work
- 비전 기반 강화 학습 (Vision-based Reinforcement Learning)
- 다양한 종류의 비전 기반 RL 알고리즘이 존재.
- 이미지 및 비디오를 이용해 에이전트의 행동을 결정하도록 훈련.
- 구간 기반 접근법 (Interval-based Approaches)
- 구간 및 목표 추정의 불확실성 기반 분석.
- 이러한 접근법이 강화 학습의 효율성을 높이는 데 유용.
- 정확한 예측을 위한 통계적 모델링 (Statistical Modelling for Accurate Prediction)
- 통계적 모델링 기법을 통해 예측 정확도 향상.
- 복잡한 환경에서의 의사결정에 도움을 줌.
- 다중 에이전트 시스템 (Multi-Agent Systems)
- 여러 에이전트가 상호작용하는 환경에서의 학습 알고리즘.
- 협력과 경쟁을 통해 성능을 극대화하는 연구 진행.
- 전이 학습 (Transfer Learning)
- 한 도메인에서 학습한 지식을 다른 도메인으로 이전하는 방법.
- 비전 기반 RL에서의 효율성을 증대시킬 수 있는 잠재력.
- 이론적 기반의 연구 (Theoretical Foundations)
- 강화 학습 및 비전을 위한 수학적 이론의 개발.
- 이론적인 기초가 강화 학습 기법의 이해를 증진.
- 최신 응용 사례 (Recent Applications)
- 게임, 로봇 공학 등 다양한 분야에서 비전 기반 RL의 성공적인 적용 사례.
- 실생활 문제 해결에 기여하고 있음.
2.1 Emotional & Empathetic Conversation
- ESC(Emotional Support Conversation), 감정 대화, 공감 대화 간의 관계를 설명
- 감정은 매력적인 대화 시스템 구축에 중요함 (Zhou et al., 2018; Li et al., 2017 등)
- Zhou et al. (2018)은 특정 감정을 기반으로 감정 응답을 생성하는 Emotional Chatting Machine(ECM) 제안
- 감정 표현의 정확성이 요구되지만, ES는 감정적 고통 감소를 목표로 하는 더 높은 차원의 능력임
- 감정 대화는 대화 시스템의 기본 품질, ES는 복잡하고 높은 수준의 능력
- 공감 응답(Empathetic Responding)도 관련 과제이며, 사용자 감정을 이해하고 그에 맞춰 응답하는 것이 목표 (Rashkin et al., 2019 등)
- 공감 응답은 감정 지원의 필수 구성 요소 중 하나로, 사용자의 문제를 탐색하고 어려움 극복을 돕는 것이 필요함
- 감정 지원 프레임워크(Section 3.2)에서 공감 표현의 중요성을 강조함
2.2 Related Datasets for Emotional Support
- 여러 연구들이 소셜 미디어나 온라인 포럼과 같은 사회적 맥락에서의 감정적 지원 대화를 다룸.
- Medeiros와 Bosse(2018): 트위터에서 스트레스 관련 게시물과 응답 쌍을 수집하고, 응답을 지지적인 범주로 분류.
- Sharma 외(2020b): TalkLife와 정신 건강 서브레딧의 게시물-응답 쌍을 텍스트 기반 공감 표현의 의사소통 기제에 주석을 달음 (레딧 데이터만 공개).
- Hosseini와 Caragea(2021): 온라인 지원 그룹에서 게시물-응답 쌍을 수집하고, 지지 필요 또는 감정을 표현하는 것으로 주석.
- 이 데이터셋의 대화는 단일 턴 상호작용(post-response pair) 또는 매우 짧은 대화로 제한되어 있으며, 이는 효과적인 감정적 지원(ES)을 수행하는 데 제한적임.
- 효과적인 ES는 종종 여러 턴의 상호작용을 필요로 함(Hill, 2009).
2.3 Emotional Support Dialog Systems
- 일부 전통적인 대화 시스템은 사람의 규칙을 적용하여 정서적 지원 응답을 제공함.
- 예: Van der Zwaan et al. (2012)
- 최근 시스템은:
- 규칙 기반 알고리즘을 고안하여 지원 행동을 결정하고,
- 사전 정의된 후보 목록에서 적절한 응답을 선택함.
- 예: Medeiros and Bosse (2018)
- COVID-19 대응 지원을 위해 설계된 대화 시스템:
- 사용자가 언급한 주제를 식별하고,
- 템플릿이나 사전 정의된 어휘에서 메시지로 반응함.
- 예: Welch et al. (2020)
- 정서적 지원 응답 생성을 다룬 연구는 드물고,
- 범위가 제한적임.
- 예: Shen et al. (2020)은 사용자 입력을 바탕으로 정서적 지원 응답 생성을 탐구함.
3 Emotional Support Conversation
- 감정적 지원 대화의 중요성 강조
- 사람들은 어려운 시기에 지원과 이해를 필요로 함.
- 감정적 지원은 친구나 가족을 통해 받을 수 있음.
- 공감의 역할
- 감정을 이해하고 공감해주는 것이 대화의 핵심.
- 상대방의 느낌을 인식하고 인정하는 것이 중요함.
- 경청과 질문
- 적극적으로 경청하며, 상대방이 이야기하도록 유도해야 함.
- 열린 질문을 통해 상대방의 생각과 감정을 깊이 탐색.
- 비판 피하기
- 대화 중 상대방을 비판하거나 판단하지 않도록 유의.
- 안전한 환경을 조성하여 자유롭게 감정을 표현할 수 있도록 함.
- 자기 표현의 중요성
- 상대방이 자신의 감정을 솔직하게 표현할 수 있도록 격려.
- 감정 표현은 healing의 중요한 단계임.
- 정신적 지원의 필요성
- 필요할 경우 전문적인 지원이나 상담을 받도록 권장.
- 감정적으로 힘든 상황에서 스스로를 돌볼 수 있는 방법 모색.
3.1 Task Definition
- 사용자가 나쁜 감정 상태에 있을 때 도움을 요청할 수 있음.
- 사용자는 부정적인 감정 레이블(e), 감정 강도 수준(l, 예: 1에서 5까지), 그리고 그들이 겪고 있는 근본적인 문제로 태그될 수 있음.
- 지지자는 대화 중에 사용자를 위로하고 감정 강도를 낮추는 역할을 해야 함.
- 대화 시작 전에 사용자의 상태는 지지자에게 알려지지 않음.
- 대화 중 지지자는 사용자가 겪고 있는 문제를 파악하고 위로하며, 그들이 문제를 해결하도록 돕는 제안이나 정보를 제공해야 함.
- 효과적인 감정 지원 대화의 조건: 대화 종료 시 사용자의 감정 강도가 낮아져야 함.
- ESC(Emotional Support Conversation) 작업의 하위 문제들:
- 지원 전략 선택 및 전략 제약 응답 생성.
- 전략 적용 시점이 감정 지원의 효과와 관련이 있음.
- 생성된 응답은 지정된 전략에 부합해야 함.
- 감정 상태 모델링.
- 사용자의 감정 상태를 동적으로 모델링하고 추적해야 함.
- 지원 효과 평가.
- 전통적인 대화 평가 차원 이외에 감정 지원 효과성을 평가하는 새로운 차원이 필요함.
- 지원 전략 선택 및 전략 제약 응답 생성.
- 감정 지원 절차는 다음과 같은 순서를 따름:
- 탐색
- 위로
- 행동
- 각 단계와 관련된 지원 전략 제안이 포함되어 있음.
3.2 ESC Framework
- ESC 프레임워크는 감정적 지원 절차를 세 가지 단계로 구분하며, 각 단계에는 제안된 지원 전략이 포함됨.
- 프레임워크는 Hill의 도움 기술 이론(2009)을 기반으로 하며, 대화 시스템 환경에 더 적합하도록 조정됨.
- 목표는 전문 상담이 아닌, 사회적 상호작용(친구, 가족 간의 상호작용)을 통해 지원을 제공하는 것임.
단계
- Hill(2009)은 사람을 지원하는 세 가지 단계 제안:
- 탐색: 도움 요청자가 문제를 식별하도록 돕기.
- 통찰: 도움 요청자가 자신의 이해를 깊게 할 수 있도록 돕기.
- 행동: 도움 요청자가 문제를 해결하기 위한 결정 내리도록 돕기.
- 그러나 통찰 단계는 사용자의 행동과 감정을 재해석하는 것이 필요하며, 지원자의 경험이 부족할 경우 어렵고 위험할 수 있음.
- 따라서 통찰 단계를 “위로”로 조정하여 공감과 이해를 통해 지원을 제공하는 것으로 정의함.
- 감정 지원 대화는 이 세 단계가 고정된 순서를 따르지 않고, 실제 대화에서 필요에 따라 유연하게 조정될 수 있음.
전략
- Hill(2009)은 각 단계에 대해 여러 대화 기술을 추천함.
- 그러나 전문 감독이나 경험 없이 대화 시스템 설정에서는 적합하지 않은 기술도 존재함.
- 이러한 기술을 대화 시스템 환경에 맞게 조정하기 위해, 7가지 방법(기타 방법 포함)을 추출하여 이를 전략으로 명명함.
- 각 전략의 자세한 정의는 부록 B에 제공됨.
4 Data Collection
- 연구의 목적: 감정 지원 기술 연구를 위한 감정 지원 대화 데이터셋(ESConv) 수집
- 수집 과정:
- Crowdworkers를 통해 도움 요청자와 지원자 모드를 설정하여 데이터 수집
- 고품질 대화 사례의 필요성 강조
- 다음 주요 측면을 포함한 노력:
- 지원자가 효과적으로 대화 지원 기술을 연습할 수 있도록 ESC 프레임워크에 따른 튜토리얼 제공
- 튜토리얼을 수료한 크라우드워커만 작업에 참여 가능
- 도움 요청자가 대화 전 문제 및 감정에 대한 설문조사를 완료하고, 대화 중 및 후에 피드백 제공
- 수집된 원시 대화 데이터에서 저품질 대화를 필터링하기 위해 수동 및 자동 메커니즘 사용
- 지원자가 효과적으로 대화 지원 기술을 연습할 수 있도록 ESC 프레임워크에 따른 튜토리얼 제공
4.1 Supporter-specific Tasks
- 훈련 및 시험
- 감정 지원을 효과적으로 제공하기 위해 ESC 프레임워크 기반의 튜토리얼 설계
- 11개의 하위 작업(3 + 8) 개발
- 세 가지 단계와 여덟 가지 지원 전략 정의 학습
- 각 하위 작업에 예제 대화 발췌 및 관련 퀴즈 질문 포함
- 고정 순서 따르기 어려울 수 있으며, 단계 전환을 유연하게 조정할 필요가 있음을 참가자에게 안내
- 전략 주석
- 대화 중 ESC 지원 전략 사용을 장려하고 데이터셋 구조화
- 대화 맥락에 따라 적절한 전략 선택 후 해당 전략을 반영하는 발화 작성
- 여러 전략을 사용할 경우 여러 개의 메시지를 보내도록 권장
- 대화 후 설문조사
- 각 대화 후, 지원자가 문제에 대해 구체적으로 설명한 정도를 5점 리커트 척도로 평가하도록 요청
4.2 Seeker-specific Tasks
- 사전 채팅 설문조사
- 도움을 요청하는 사람은 대화 전에 설문조사 응답 필요
- (1) 문제 및 감정 종류: 5가지 문제 중 선택 및 7가지 감정 중 선택
- (2) 감정 강도: 1부터 5점 척도로 점수 부여 (높을수록 강한 감정)
- (3) 상황: 감정 문제의 원인을 설명하는 자유 텍스트
- (4) 경험의 출처: 현재의 경험인지 혹은 이전의 삶에서의 상황인지
- 도움을 요청하는 사람은 대화 전에 설문조사 응답 필요
- 역할 기준
- 지원자 (Supporter)
- 도움 요청자의 경험과 감정을 이해하는 것 (3점 이상)
- 대화 주제와 발화의 관련성 (4점 이상)
- 발화의 평균 길이 (8자 이상)
- 도움 요청자의 감정 강도 개선 (1점 이상)
- 도움 요청자 (Seeker)
- 자신의 감정 문제에 대한 세부 사항 설명 (지원자의 평가 필요 없음)
- 발화의 평균 길이 (6자 이상)
- 지원자 (Supporter)
- 피드백
- 대화 중 도움 요청자는 지원자가 제공한 각 두 개의 발화 후 피드백 요구
- 피드백은 지원자의 메시지 유용성을 5점 척도로 평가
- 대화는 세 가지 단계로 나뉘며 각 단계의 평균 피드백 점수 계산
- 단계별 평균 점수: 4.03, 4.30, 4.44 (지원자가 효과적으로 도움을 제공할 능력을 나타냄)
- 사후 채팅 설문조사
- 대화 후 도움 요청자는 감정과 지원자의 성과를 5점 리커트 척도로 평가
- (1) 대화 후의 감정 강도 (감정 개선이 반영됨)
- (2) 지원자의 공감 및 도움 요청자의 경험과 감정 이해도
- (3) 대화 주제와 지원자의 응답의 관련성
- 대화 후 도움 요청자는 감정과 지원자의 성과를 5점 리커트 척도로 평가
4.3 Quality Control
-
고품질의 감정 지원 대화를 보장하기 위해 여러 가지 방법 사용.
- 초기 필터링
- 지원자 모집 시 5,449명 지원, 425명(7.8%)만 교육 튜토리얼 통과.
- 수집된 2,472개의 대화 중 도움을 요청한 사람이 끝내지 않았거나 발화가 16개 미만인 대화 필터링.
- 최종적으로 1,342개 대화(54.3%)가 고려 대상에 남음.
- 자격 있는 대화를 위한 자동 승인 프로그램
- 데이터 품질 관리의 핵심 요소로, 역할별 설문 응답 및 발화 길이를 기준으로 설계됨.
- 초기 인간 검토 결과를 바탕으로 승인 기준 결정, 평균 감정 강도는 대화 전 4.04, 대화 후 2.14로 개선됨.
- 일부 대화는 도움 요청자가 후속 설문을 마치지 않아, 마지막 두 평가 점수가 모두 4 이상인 경우 추가 기준 적용.
- 이러한 품질 기준을 사용해 1,053개 대화(1,342개의 78.5%)가 자격을 갖춤.
- 주석 수정
- 데이터 품질 보장을 위해 지원 전략 및 도움 요청자의 감정 강도 주석 검토 및 수정.
- (1) 전략 주석 수정: 신규 자격을 갖춘 지원자에게 이전 대화의 주석 검토 요청, 2,545발화(17.1%)가 검토됨.
- 75% 이상의 검토자가 동의하지 않는 경우 수동으로 주석 검토 후 139개 수정.
- (2) 자동 승인 기준에 따라 도움 요청자의 감정 개선 점수가 1 미만이되 다른 세 가지 기준이 충족되면 자격 인정.
- 감정 강도에 대한 오해가 자주 발생했으며, 130개의 대화 중 92%가 수동 검토 후 수정되어 코퍼스에 포함됨.
5 Data Characteristics
- 데이터 출처: 데이터는 다양한 소스에서 수집됨.
- 데이터 유형:
- 구조적 데이터: 정해진 형식으로 제공됨.
- 비구조적 데이터: 자유로운 형식으로 제공됨.
- 데이터 양: 대량의 데이터가 저장되어 있으며 지속적으로 증가함.
- 데이터 다양성: 서로 다른 형식과 유형의 데이터가 혼합되어 있음.
- 데이터 품질: 정확성과 신뢰성을 유지해야 함.
- 데이터 처리:
- 실시간 처리: 즉각적인 데이터 분석 및 처리 필요.
- 배치 처리: 주기적으로 대량 처리 가능함.
- 데이터 저장: 클라우드 및 로컬 서버를 포함한 다양한 저장 옵션이 있음.
- 보안 및 프라이버시: 데이터 보호 및 사용자 정보의 안전성이 강조됨.
5.1 Statistics
- 전반적인 통계
- 총 1,053개의 ESConv 대화 샘플
- 대화의 평균 길이: 29.8개의 발화
- 평균 채팅 시간: 22.6분
- 참여한 근무자 수: 854명 (서포터 425명, 시커 532명)
- 총 발화 수: 31,410개 (서포터 14,855개, 시커 16,555개)
- 발화의 평균 길이: 17.8개 (서포터 20.2개, 시커 15.7개)
- 시커의 문제
- 지속적인 우울증: 306개 (29.1%)
- 직업 위기: 233개 (22.1%)
- 파트너와의 이별: 216개 (20.5%)
- 친구 문제: 159개 (15.1%)
- 학업 압박: 139개 (13.2%)
- 시커의 감정
- 불안: 281개 (26.7%)
- 우울: 276개 (26.2%)
- 슬픔: 250개 (23.7%)
- 분노: 96개 (9.1%)
- 두려움: 88개 (8.4%)
- 혐오: 32개 (3.0%)
- 수치심: 30개 (2.8%)
- 시커의 피드백
- 1 (매우 나쁨): 71개 (1.1%)
- 2 (나쁨): 183개 (2.9%)
- 3 (보통): 960개 (15.5%)
- 4 (좋음): 1,855개 (29.9%)
- 5 (우수함): 3,144개 (50.6%)
- 지원 전략
- 질문: 3,109개 (20.9%)
- 재진술 또는 패러프레이징: 883개 (5.9%)
- 감정 반영: 1,156개 (7.8%)
- 자기 공개: 1,396개 (9.4%)
- 확인 및 재확신: 2,388개 (16.1%)
- 제안 제공: 2,323개 (15.6%)
- 정보: 904개 (6.1%)
- 기타: 2,696개 (18.1%)
- 통계의 해석
- 효과적인 감정 지원(ES)은 많은 상호작용을 요구
- COVID-19 발생으로 인해 지속적인 우울증과 직업 위기가 가장 흔한 문제로 나타남
- 시커들은 감정 지원에 대해 높은 만족도를 보임
- ESC 프레임워크를 기반으로 한 교육이 서포터들에게 효과적인 ES 제공에 기여함
- 모든 주석이 연구를 촉진하기 위해 공개됨
5.2 Strategy Analysis
- 어휘적 특징
- 각 전략의 어휘적 특징을 로그 오즈 비율과 정보적 디리클레 사전(Informative Dirichlet prior) 방식으로 추출.
- 각 전략에 대해 상위 5개의 구문을 나열 (Figure 3).
- 특정 구문과 유의미한 상관관계를 지닌 전략 (예: 질문 전략과 “are you”, 자기 노출 전략과 “me”).
- 전략 분포
- 대화의 각 단계에서 전략의 분포를 계산.
- Lutterances가 포함된 대화에서 k번째 발화는 지원자로부터 나온 것으로, 전략 st를 채택.
- 대화 진행 상황을 6개의 구간으로 나누어 분포를 분석.
- 초기 대화에서 탐색 전략(예: 질문)을 사용하고, 이후 도움을 요청한 이들의 상황을 이해한 후 의견 제공(예: 제안하기)을 경향적으로 실시.
- 전체 대화에서 위로하는 전략(예: 긍정 및 재확인)은 상대적으로 일정한 비율로 사용됨.
- 전략 전환
- Appendix의 Table 6에서 3/4 단계에서 가장 빈번한 전략 전환의 상위 5개를 제시.
- 지원자는 대개 질문을 하고 도움 요청자의 상황을 탐색한 후 위로하는 전략으로 전환하는 경향.
6 Experiments
- 실험의 주요 질문 두 가지:
- ESConv와 전략 주석이 최신 생성 대화 모델을 얼마나 개선할 수 있는가?
- 이러한 모델이 ESConv로부터 효과적인 정서적 지원을 제공하는 방법을 배울 수 있는가?
6.1 Backbone Models
- 두 개의 최첨단 사전 훈련 모델을 비교 variant 모델의 백본으로 사용함
- BlenderBot
- Rollers 외 (2020)에서 개발
- 다중 커뮤니케이션 기술을 갖춘 오픈 도메인 대화 시스템
- 공감적 반응을 포함하여 사용자에게 ES를 제공할 수 있음
- 실험에서는 작은 버전을 사용
- 이유: 더 큰 버전은 최대 컨텍스트 길이가 128로 제한되어 있어 모델 성능과 응답 일관성에 악영향을 미침
- DialoGPT
- Zhang 외 (2020)에서 개발
- GPT-2 기반의 모델로 대규모 대화 코퍼스를 사용하여 사전 훈련
- 역시 작은 버전을 사용
- BlenderBot
6.2 Variant Models
-
각 사전 훈련된 모델을 백본 모델로 사용하여 다음과 같은 변형 모델을 구축함.
- 바닐라 모델 (Vanilla):
- ESConv에서 전략 주석에 접근하지 않고 백본 모델을 직접 미세 조정함.
- 대화 이력
x
와 생성할 응답y
를 기반으로 조건부 확률을 극대화: \(P(y \vert x) = ∏ \vert y \vert i=1 P(yi \vert x,y≤i)\).
- 전략이 포함된 변형 (Variants with strategy):
- 전략 주석을 백본 모델에 통합하기 위해 각 전략을 대표하는 특별 토큰 사용.
- 지지자의 각 발화
y
앞에 해당 전략 토큰을 추가: ˜y = [st] ⊕y, 여기서 [st]는 사용된 전략의 특별 토큰. - 모델은 평면화된 대화 이력
x
를 입력으로, 첫 번째 예측된 (또는 지정된) 전략 토큰에 따라 응답 생성: \(P(˜y \vert x) = P([st] \vert x) ∏ \vert y \vert i=1 P(yi \vert x,[st],y<i)\).
- 바닐라 모델 (Vanilla):
- 평가 결과:
-
모델 및 변형별 자동 평가 결과 요약:
모델 변형 PPL B-2 R-L Extrema DialoGPT Vanilla 15.51 5.13 15.26 49.80 Joint - 5.00 15.09 49.97 Oracle 15.19 5.52 15.82 50.18 BlenderBot Vanilla 16.23 5.45 15.43 50.49 Joint - 5.35 15.46 50.27 Oracle 16.03 6.31 17.90 51.65 - 볼드체로 표시된 결과는 모든 경쟁 모델보다 유의미하게 좋음 (Student’s t-test, p-value < 0.05).
-
- 전략 주석을 사용하는 세 가지 변형 연구:
- Oracle: 응답이 금색 기준 전략 토큰에 따라 생성됨.
- Joint: 응답이 예측된(샘플링된) 전략 토큰에 따라 생성됨.
- Random: 응답이 무작위로 선택된 전략에 따라 생성됨.
- 구현 세부 사항은 부록 C에 있음.
6.3 Automatic Evaluation
-
목적: 지원 전략 사용이 모델 성능에 미치는 영향을 조사하기 위해 BlenderBot과 DialoGPT 성능 비교.
-
비교 모델: Vanilla, Joint, Oracle 변형 모델.
- 자동 평가 지표:
- Perplexity (PPL)
- BLEU-2 (B-2)
- ROUGE-L (R-L)
- BOW Embedding 기반 Extrema 매칭 점수
-
지표 계산: PPL을 제외한 모든 지표는 NLG 평가 툴킷 및 NLTK를 통해 계산.
- 주요 발견:
- Oracle 모델: 모든 지표에서 Vanilla 모델보다 월등히 우수, 지원 전략의 유용성을 입증.
- Joint 모델: Vanilla 모델보다 점수가 약간 낮지만, 진짜 전략이 없는 경우 전략 예측 학습이 중요함. 향후 인간 상호작용 평가에서 성능 추가 조사 예정.
- BlenderBot vs. DialoGPT: BlenderBot 변형이 DialoGPT보다 일관되게 좋은 성능, ESC 작업에 더 적합함.
- 인간 상호 작용 평가 결과:
- Joint 모델이 모든 메트릭에서 경쟁 모델에 비해 우수한 성능을 보임.
- 성능 평가에는 “w/o ft” 표시된 BlenderBot 모델(ESConv에 대한 미세 조정 없음) 포함.
- Win/Lose 비율:
- 유창성: Joint 71 vs Vanilla 52, DialoGPT 53
- 식별: Joint 65 vs Vanilla 50, DialoGPT 54
- 위안: Joint 75 vs Vanilla 54, DialoGPT 47
- 제안: Joint 72 vs Vanilla 47, DialoGPT 48
- 전반적으로 Joint 73 vs Vanilla 51, DialoGPT 56
6.4 Human Interactive Evaluation
- 참여자 모집: Amazon Mechanical Turk에서 모델과 대화할 참여자를 모집.
- 대화 구조: 온라인 테스트는 데이터 수집과 동일한 플랫폼에서 진행되며, 모델이 지원자의 역할을 맡음.
- 비교 질문:
- 유창성: 어떤 봇의 응답이 더 유창하고 이해하기 쉬운가?
- 문제 파악: 어떤 봇이 더 깊이 있는 탐구를 통해 문제를 잘 파악했는가?
- 위로 능력: 어떤 봇이 더 잘 위로했는가?
- 제안 능력: 어떤 봇이 더 유용한 제안을 했는가?
- 전반적인 선호: 어떤 봇의 정서적 지원을 선호하는가?
- 모델 비교: 세 가지 모델 쌍(Joint vs. BlenderBot, Joint vs. Vanilla, Joint vs. Random) 비교.
- 실험 수: 각 모델 쌍은 100회의 대화를 통해 비교됨.
- 주요 발견:
- BlenderBot은 ESConv에 대해 미세 조정 후 모든 메트릭에서 유의미한 향상을 보임.
- 전략을 사용할 경우 사용자에게 더 나은 위로를 제공함.
- 전략의 적절한 타이밍은 사용자가 문제를 식별하는 데 중요함.
- 결론: 전략 예측의 감독을 통해 미리 훈련된 모델이 사용자에게 선호되며, ESConv의 높은 품질과 유용성을 입증함.
- 추가 분석: Joint 모델의 전략 분포 분석 결과, 인간 지원자와 유사한 전략 선택 및 활용을 보여줌.
- 사례 연구: Joint 모델이 더 지지적인 응답과 다양한 지원 전략을 사용하여 효과적인 감정 지원 제공, 반면 미세 조정되지 않은 BlenderBot은 사용자 감정을 잘 이해하지 못함.
6.5 Further Analysis of Human Interactive Evaluation
- 참가자 모집
- 아마존 Mechanical Turk에서 참가자를 모집하여 모델과 대화하도록 함.
- 참가자는 두 개의 서로 다른 모델과 대화하며, 모델은 임의로 순서가 결정됨.
- 평가 기준
- 참가자는 두 모델을 다음 기준에 따라 비교:
- 유창성: 어떤 봇의 응답이 더 유창하고 이해하기 쉬운가?
- 문제 확인: 어떤 봇이 사용자 상황을 더 깊이 탐구하고 문제 확인에 더 도움이 되었는가?
- 위로 기술: 어떤 봇이 사용자에게 더 잘 위로했는가?
- 제안: 어떤 봇이 사용자 문제에 대해 더 유용한 제안을 했는가?
- 전체 평가: 일반적으로 어떤 봇의 정서적 지원을 선호하는가?
- 참가자는 두 모델을 다음 기준에 따라 비교:
- 모델 비교
- 세 가지 모델 쌍 비교:
- (a) Joint vs. BlenderBot (ESConv로 세밀 조정 없음)
- (b) Joint vs. Vanilla
- (c) Joint vs. Random (무작위 선택 전략 사용)
- Random 모델은 ESConv의 전략 분포에 따라 무작위 전략 선택.
- 세 가지 모델 쌍 비교:
- 대화 수와 결과
- 각 모델 쌍에 대해 100회의 대화 시행.
- 비교 (a) 결과: BlenderBot은 ESConv로 세밀 조정 후 모든 지표에서 유의미한 향상 보임.
- 비교 (b)에 따르면 전략을 사용하는 것이 사용자에게 더 나은 위로를 제공함.
- 비교 (c) 결과는 적절한 전략 타이밍이 문제 확인 및 효과적인 제안을 돕는 데 중요함을 보여줌.
- Joint 모델 학습 분석
- Joint 모델이 사용자와의 300회의 대화에서 채택한 전략 분포를 분석.
- 전략 분포가 ESConv의 실제 분포와 매우 유사하게 나타남.
- 모델이 인간 지원자의 전략 선택과 활용을 모방하여 더 효과적인 정서적 지원을 제공하고 있다는 중요한 증거를 제공.
- 사례 연구
- Joint 모델이 더 지원적인 응답을 제공하고, 대화에서 더 많은 기술을 사용하는 반면, 세밀 조정이 없는 BlenderBot은 사용자의 고통을 잘 이해하지 못하고 자신에 대해 이야기하는 경향이 있음.
- 더 지원적인 응답과 다양한 지원 전략이 효과적인 정서적 지원에 중요하다는 암시.
- 결론
- 이 연구는 정서적 지원 대화의 작업을 정의하고 ESC 프레임워크를 제시함.
- ESConv 데이터세트를 구축하고, 대화에서 정서적 지원의 효과성을 보장하기 위해 여러 메커니즘 설계.
- 실험 결과는 ESConv가 대화 시스템의 정서적 지원 능력을 향상시킬 가능성을 보여줌.
7 Conclusion
- 감정 지원 대화(task of Emotional Support Conversation)를 정의하고 ESC 프레임워크(ESC Framework)를 제시.
- ESC 프레임워크는 도움 기술 이론(Helping Skills Theory)을 대화 시스템(dialog system) 설정에 맞추어 조정.
- 세 가지 단계와 각 단계에 유용한 지원 전략 포함.
- 감정 지원 대화 데이터셋(ESConv) 구축.
- 데이터 수집 과정과 다양한 메커니즘을 설계하여 대화에서 감정 지원의 효과성을 보장.
- 최첨단 대화 모델을 통해 ES 능력 평가 실시.
- 실험 결과는 ESConv가 효과적인 감정 지원 제공 능력을 향상시키는 데 유용하다는 잠재력을 보여줌.
- 본 연구는 감정 지원 대화 시스템의 미래 연구를 촉진하고, 감정 지원이 중요한 다른 대화 시나리오의 모델 개선에 기여할 수 있음.
- 향후 연구의 주요 방향:
- 전략 선택 및 구현
- 사용자 상태 모델링
- 작업 평가
- 윤리적 고려사항:
- 다양한 지원 유형과 수준이 존재하며, 일부는 시스템에서 제공하기에 부적절하거나 위험할 수 있음.
- ESC 프레임워크 개발 시 대화 지원 요소 중 관련 요소만 포함하고 과도한 요소는 생략.
- 시스템이 제공 가능한 적절한 지원 수준을 파악하기 위한 추가 연구 필요.
- 연구는 데이터 사용과 의도에 대한 투명한 소통, 공정한 보상 지급, 윤리적 검토 이사회 승인 등을 포함하여 윤리적으로 수행됨.
독자 의견
- 본 연구는 감정 지원 대화 데이터셋을 구축하기 위해 Hill의 도움 기술 이론(2009)을 사용하였고, 실제 크라우드워커를 통해 데이터를 수집하였다.
- 본 데이터는 심리상담 또는 지원을 위한 대화 에이전트에 사용할 수 있을 것이며, 감정 지원 대화 데이터셋을 통해 감정 지원 대화 시스템의 성능을 평가할 수 있을 것이다.
- 또한 최근의 발전된 성능의 LLM을 사용하여 ESConv를 다국어 데이터셋이나 다양하게 증강하여 활용할 수 있을 것이다.
Comments