[논문리뷰] KMI: A Dataset of Korean Motivational Interviewing Dialogues for Psychotherapy (NAACL 2025)
본 논문은 전문 치료사 지식을 반영한 동기면담(MI) 시뮬레이션 프레임워크를 통해 한국어 MI 대화 1,000건의 고품질 합성 데이터셋(KMI)을 생성하고, 이를 기반으로 한 대화 모델의 전문성과 실용성을 평가하였다.
1 Introduction
- 현대 사회에서 정신 건강 문제는 매우 중요한 이슈로 부상하고 있으며, 이에 따른 정신 건강 서비스 수요가 증가하고 있음.
- 하지만 정신 건강 서비스를 제공할 충분한 인력이 부족한 상황(Butryn et al., 2017).
- 이에 AI 기반 챗봇을 활용한 정신 건강 지원 연구가 활발히 진행되고 있으나, 아래와 같은 여러 도전 과제가 존재함.
- 개인정보 보호 문제
- 데이터 수집에 소요되는 비용과 시간
- 정신 건강 전문가의 지식 필요성
- Cho et al. (2023)은 많은 정신 건강 챗봇들이 심리치료의 이론적 근거 없이 설계되어 효과성에 의문이 있다고 지적함.
- 이러한 한계를 극복하기 위한 이론적 기반으로서 Motivational Interviewing (MI) 기법이 주목받고 있음.
- MI는 내담자의 양가감정을 탐색하고 해결하도록 돕는 행동 변화 유도 중심 상담 기법(Miller and Rollnick, 2002).
- MI는 MITI(Motivational Interviewing Treatment Integrity) 등 잘 구성된 행동 코딩 체계를 바탕으로 NLP와 심리치료 융합 연구에서 활발히 활용됨.
- 기존 MI 데이터셋들은 다음과 같은 문제점들을 가짐.
- Pérez Rosas 등(2016)의 MI 데이터셋: 유튜브와 비메오 영상 자동 자막 활용, 윤리적 이유로 공개 불가
- Welivita and Pu (2022): 온라인 동료 지원 포럼 데이터, 전문가 상담과 MI 방식 차이로 전문성 부족
- Wu et al. (2023)의 AnnoMI: 133개 대화, 전문 MI 시범 영상에서 전사 및 주석, 그러나 양적 제한 및 인력 소요 문제
- 기존 데이터셋의 한계
- 전문성 부족 또는 데이터 양 부족
- 대화문에 방언, 버벅임 등 챗봇에 부적절한 요소 존재
- 주로 영어에 국한되어 있어, 비영어권 언어 및 문화 연구 부족
- 본 논문에서는 이러한 문제 해결을 위해 대형 언어 모델(LLM)을 활용한 합성 MI 대화 생성 프레임워크를 제안함.
- 치료사 시뮬레이터와 내담자 시뮬레이터 두 에이전트를 설계하고, few-shot in-context learning으로 번갈아 발화 생성
- 전문가 치료사의 전문성 반영을 위해 치료사 행동 예측기(MI forecaster) 모델을 학습하여 활용
- 비영어권인 한국어를 대상으로 실제 한국 상황을 반영한 대화 생성
- 결과물로서 총 1,000개의 한국어 MI 대화로 구성된 KMI 데이터셋을 제시함.
- KMI는 비영어권, MI 이론 기반, 비전사 데이터 생성을 모두 충족하는 유일한 데이터셋(그림 1 참고)
- 한국인의 공통적 고민과 불안을 포함하고, 전문 치료사의 MI 전략을 접목
- 각 치료사 발화에 치료사 행동 레이블 부여
- 본 연구의 최초 시도
- LLM의 생성 능력을 활용하여 MI 데이터셋을 구축한 첫 사례
- 평가 방법 및 결과
- 전문가 상담사를 통한 종합 평가 진행
- MI 이론과 일반 대화 시스템 관점에서 데이터셋 품질 검증
- MI 정신을 직접 측정하는 새로운 평가 메트릭 도입
- KMI로 학습한 대화 모델의 유용성 확인
- 주요 기여점
- 실제 치료사의 행동 선택을 모사하는 MI forecaster 모델을 학습 및 활용하여 전문성 있는 MI 세션 시뮬레이션 프레임워크 제안
- MI 이론에 기반한 최초의 합성 한국어 MI 대화 데이터셋 KMI(1,000개 대화) 공개로 심리치료 데이터 부족 문제 해결
- 전문가 평가와 MI 기반 새로운 평가 지표를 통해 KMI의 품질, 전문성, 실용성을 입증
2 Related Work
- 대화 생성에 LLM 활용
- 최근 연구들은 다양한 응용을 위한 대화 생성에 LLMs 사용에 집중.
- Kim et al. (2022): 문제성 콘텐츠 처리를 위한 대규모 대화 데이터셋 구축을 위한 인간-기계 협업 프레임워크 제안.
- Chen et al. (2023a): 소수의 전문가 작성 대화를 문맥 예제로 사용하여 합성 다자간 대화 생성.
- Chen et al. (2023b): 혼합 주도 대화를 생성하기 위한 LLM 프롬프트 방법 제안.
- Kim et al. (2023): LLM으로부터 대화를 증류하여 대규모 사회적 대화 데이터셋 생성.
- Macina et al. (2023): 인간 교사와 LLM 학생을 페어링하여 수학 추론 문제에 기반한 교사-학생 튜터링 대화 생성.
- MI(동기부여 면담) 분야에서 NLP 응용
- MI는 불이행 상태 해소와 변화에 대한 헌신 지원 기법으로, 내담자 중심 치료의 진화된 방법론 (Miller, 1983).
- NLP 발전과 함께 MI 분야에 NLP 기법 적용 연구 활발.
- MI 행동 코드를 자동 분류하는 여러 접근법 제안:
- 초기 연구: 언어적 특징 활용 (PérezRosas et al., 2017), 순환 신경망 구조 적용 (Tanana et al., 2015; Xiao et al., 2016; Cao et al., 2019; Gibson et al., 2019).
- 최근 연구: RoBERTa 같은 사전학습 언어모델 활용 (Liu et al., 2019; Tavabi et al., 2021; Welivita and Pu, 2023).
- 멀티모달 접근: 음성 특징 (Tavabi et al., 2020), 얼굴 특징 (Nakano et al., 2022) 포함.
- Welivita and Pu (2023):
- LLM이 MI 전략을 활용한 대화 증진에 잠재력 있음 입증.
- 온라인 플랫폼에서 수집된 MI 데이터셋에서 조언의 92.86%가 허가 없는 조언(non-adherent category)으로 파악.
- BlenderBot (Roller et al., 2021) 및 GPT-3 (Brown et al., 2020)를 미세조정하여 MI 부합 조언(허가 있는 조언)으로 대답 재구성 시도.
- 하지만, 이러한 재구성은 발화 방식 수정에 국한되어 내용 수정에서는 한계 존재.
- 본 연구에서는 LLM의 생성 능력을 더욱 활용하여 데이터셋을 처음부터 생성하는 방향으로 확장.
3 KMI: A Dataset of Korean Motivational Interviewing Dialogues
- 본 섹션에서는 현실적인 동기부여 면담(MI) 대화를 생성하기 위한 새로운 프레임워크를 소개함. 전체 프레임워크는 그림 2에 나와 있음.
- 첫째, 한국인의 실제 고민과 불안을 반영하는 맥락 데이터(Section 3.1)를 수집. 각 맥락은 각각의 대화 주제로 사용됨.
- 둘째, 치료사 시뮬레이터와 내담자 시뮬레이터를 활용해 MI 세션을 시뮬레이션(Section 3.2)함.
- 마지막으로, 생성된 KMI 데이터셋을 Section 3.3에서 제시함.
3.1 맥락 데이터 수집
- 현실적인 대화 생성을 위한 맥락 데이터를 구축하기 위해 Mindcafe라는 한국 심리상담 플랫폼에서 웹 크롤링 수행.
- 총 7,530개의 게시글을 7개의 카테고리에서 수집: 정신건강, 대인관계, 자아 및 성격, 진로 및 취업, 학업 및 시험, 중독 및 집착, 가족.
- GPT-4 API를 사용하여 게시글의 구체성과 MI 세션 주제로 적합성에 대해 1~3점으로 평가.
- 점수 3점을 받은 3,098개 중 각 카테고리별로 정해진 수량인 1,000개를 샘플링.
- 수집, 필터링, 샘플링의 상세 내용은 Appendix A 참고.
3.2 동기부여 면담
- 각 맥락별로 LLM 기반 치료사 시뮬레이터(Section 3.2.1)와 내담자 시뮬레이터(Section 3.2.2)를 통해 MI 세션을 시뮬레이션.
- 두 시뮬레이터가 번갈아가며 발화를 생성하며, 대화는 치료사의 일반적인 오픈 질문(“안녕하세요, 오늘 어떤 고민이 있으신가요?”)으로 시작.
- 치료사 발화는 MITI 코드(Moyers et al., 2003, 2014)를 바탕으로 한 총 8가지 MI 라벨로 분류되며(Table 1 참고), 각 발화에 해당 라벨이 주석으로 부여됨.
MI 라벨 | 설명 | 예시 |
---|---|---|
Simple Reflection | 이전 발화 반복, 재구성 또는 바꿔 말하기 | “걱정이 많이 되시는 것 같네요.” |
Complex Reflection | 이전 발화 재진술 + 의미/강조 추가 | “책임감이 강하게 느껴지시는군요.” |
Open Question | 다양한 답변을 유도하는 질문 | “그 부분에 대해 어떻게 생각하세요?” |
Closed Question | 예/아니오 혹은 제한된 답변 유도 질문 | “이게 장점이라고 생각하세요?” |
Affirm | 긍정적 피드백으로 격려 | “과거 노력에 자부심을 가져야 해요.” |
Give Information | 조언 없이 정보 제공 또는 의견 전달 | “갈망 기록은 재발 방지에 중요해요.” |
Advise | 제안, 해결책, 행동 권유 | “도움을 줄 아이디어를 함께 생각해볼까요?” |
Other | 그 외 나머지 발화 | “안녕하세요.” |
3.2.1 치료사 시뮬레이터
- 전문 치료사의 MI 일관된 행동을 모방하는 것이 중요.
- MI forecaster와 결정 모듈을 통해 다음 턴 치료사 행동(MI 라벨)을 예측 후, LLM을 프롬프트하여 예측된 행동 기반으로 발화를 생성.
- MI Forecaster는 AnnoMI 데이터셋(Wu et al., 2023)을 활용해 T5-base 모델을 파인튜닝하여 치료사 다음 행동 예측 (라벨 분류) 수행.
- Affirm 라벨은 기존 데이터에 RoBERTa 기반 MI 분류기(Welivita and Pu, 2023)로 추가함.
- 입력 텍스트는 대화 기록과 함께 각 발화에 해당 라벨 포함 여부를 두 가지 설정으로 실험.
- top-3 정확도 기준 평가 (top-1이 유일 정답이 아닐 수 있음).
- 결과: 최근 6개 발화 및 치료사 라벨 포함 시 최고 성능(71.26% top-3 정확도).
- 두 가지 규칙을 적용하는 결정 모듈:
- 동일 치료사 라벨이 3회 연속 불가.
- 치료사는 연속적으로 3회 질문(오픈 혹은 클로즈드) 불가.
- 이렇게 결정된 라벨에 대해, LLM을 in-context learning으로 프롬프트하여 치료사 발화 생성.
- 프롬프트에는 한국 MI 교재의 정의 및 실제 상담가 발화 예시 3개(발화 유형별 포함) 사용.
- 생성 과정에서 대화 종료 조건도 명시 (내담자 고민이 해결되었다고 판단 시 종료).
3.2.2 내담자 시뮬레이터
- LLM을 직접 프롬프트하여 내담자 발화 생성.
- 대화 맥락과 이력 기반 응답 생성.
- 내담자가 변화 의지를 표현하는 “변화 말하기(change talk)” 발화를 유도하는 전략 적용.
- 변화 말하기 예시는 한국 MI 교재에서 추출한 4가지 유형(DARN: Desire, Ability, Reasons, Need) 포함.
- 프롬프트에는 정의, 예시 4개 및 제약조건 포함.
- 최종적으로 1,000개의 한국어 MI 대화로 구성된 KMI 데이터셋 생성.
3.3 KMI 데이터셋 통계
- 총 1,000개의 대화, 평균 18.12 턴/대화.
- 치료사 발화는 MITI 8가지 라벨 중 하나로 주석화됨.
-
각 라벨 출현 빈도 (총 치료사 발화 8,558개 기준):
- Complex Reflection: 3,055 (36%)
- Open Question: 2,305 (27%)
- Simple Reflection: 1,269 (15%)
- Affirm: 914 (11%)
- Other: 779 (9%)
- Closed Question, Give Information, Advise: 각 1% 내외
- Reflection(반영)과 Question(질문)의 비율인 R:Q 비율은 약 \(1.8:1\)로, MITI 매뉴얼의 전문가 수준(좋음, 2:1)에 근접.
- 본 데이터셋은 현실적인 한국어 MI 대화 모델링 및 후속 NLP 연구에 유용함.
- 예시 대화는 그림 4 및 Appendix J 참고.
4 Evaluation
- 본 절에서는 생성된 데이터셋의 품질(4.2절)과 해당 데이터셋으로 파인튜닝된 대화 모델의 성능(4.3절)을 평가함.
- 비교 대상 데이터셋은 OpenAI API를 활용해 만들어진 유일한 한국어 상담 데이터셋인 CounselGPT와 AnnoMI임.
- AnnoMI는 한국어 평가를 위해 SOLAR 번역 API를 통해 한국어로 번역하여 사용함.
4.1 Evaluation Criteria
- 평가 대상: MI(Motivational Interviewing, 동기면담) 품질과 일반 대화 시스템의 품질 두 관점에서 평가함.
MI 품질 평가 항목 (MI Quality)
- Partnership (협력)
- Acceptance (수용)
- Compassion (연민)
- Evocation (환기)
- Similarity (유사성): 실제 치료사의 발화와 생성된 치료사 발화의 유사도
- Effectiveness (효과성): MI 세션의 전반적 효능
- (1)~(4)은 MI 이론(Miller and Rollnick, 2012)에서 도출된 핵심 정신임.
- 평가 기준에 관한 자세한 설명은 부록 F에 있음.
일반 품질 평가 항목 (General Quality)
- Consistency (일관성): 대화 전반 및 턴 간 발화가 일관적인지
- Fluency (유창성): 대화 흐름과 발화의 자연스러움 및 부드러움
- On-topic (주제 적합성): 대화 내용이 주어진 문맥과 관련성이 있는지
4.2 Evaluation of Dataset
평가 방식
- MI 품질과 일반 품질은 한국어 MI 경험이 풍부한 상담 심리전문가 4인을 통한 인간 평가로 진행됨.
- KMI, CounselGPT, AnnoMI 각 데이터셋에서 무작위로 100개 대화를 샘플링하여 평가함.
- 전문가들은 1~5점 리커트 척도로 평가하고 다수결 방식으로 중앙값 점수를 산출함.
- 평가 양식은 부록 I의 그림 5에 있음.
MI 품질 평가 결과 (표 3 요약)
- KMI는 모든 MI 평가 항목에서 CounselGPT와 AnnoMI를 능가함.
- CounselGPT는 MI 이론에 기반하지 않아 전반적으로 낮은 점수를 받음.
- AnnoMI는 MI 품질 점수는 높으나 유사성 점수는 KMI보다 낮음 (번역 과정에서의 품질 저하 가능성).
- KMI 유사성 3.94점, 효과성 3.74점으로 정신치료 자원으로서의 가치 입증.
일반 품질 평가 결과 (표 3 요약)
- KMI가 Consistency 4.65점, Fluency 4.22점으로 최상위 성과.
- CounselGPT와 AnnoMI보다 높은 점수를 보이며, 한국어 맞춤형 프레임워크의 우수성을 시사.
- On-topic 점수 4.17점으로 실제 한국 상황과의 높은 적합성 확인.
- CounselGPT, AnnoMI는 문맥 데이터가 없어 On-topic 평가는 제외됨.
MI 라벨 정확도 평가
- KMI에서 MI 라벨별 발화 30개씩(총 210개)을 무작위 샘플링하여 True/False 방식으로 적합성 평가 진행.
- 평균 정확도 96.0%로 대부분 발화가 할당된 라벨과 일치함.
MI 라벨 | 정확도 (%) |
---|---|
Simple Reflection | 96.7 |
Complex Reflection | 96.7 |
Open Question | 100.0 |
Closed Question | 95.0 |
Affirm | 96.7 |
Give Information | 90.0 |
Advise | 96.7 |
평균 | 96.0 |
4.3 Evaluation of Dialogue Model Training
실험 환경
- KMI, CounselGPT, 번역한 AnnoMI 데이터로 각각 LLaMA 27B 기반 한국어 멀티태스크 지침 튜닝 모델(komt-llama2-7b-v1)을 파인튜닝함.
- 평가에는 4명의 원어민 한국인 크라우드워커가 참여해 문맥 데이터를 기반으로 모델과 30회 대화 진행.
- 평가된 대화는 4명의 전문가가 인간 평가(리커트 5점 척도)로 진행함.
MI 품질 평가 결과 (표 5 요약)
- KMI로 튜닝된 대화 모델이 모든 MI 평가 기준에서 다른 모델 대비 대폭 우수한 성과를 보임.
- 상대적으로 낮은 Similarity와 Effectiveness 점수는 7B 크기의 기본 모델 제한 때문으로 추정됨.
- CounselGPT와 AnnoMI 기반 모델은 대부분 3점 이하로 MI 챗봇 훈련 적합성에 한계 있음.
- 부록 K의 예시 대화에서 KMI 기반 모델은 MI 원칙을 준수하는 발화를 생성함을 확인, 반면 다른 모델은 과도하게 긴 발화 경향이 있음.
일반 품질 평가 결과 (표 5 요약)
- KMI 기반 모델이 Consistency 4.30점, Fluency 3.55점으로 타 모델 대비 우수.
- AnnoMI 기반 모델은 최하위 점수를 기록해 전사 데이터 사용의 한계가 드러남.
- On-topic 평가는 대화 모델이 아니라 사용자 주도로 논의 주제가 결정되므로 수행하지 않음.
참고 표
데이터셋/모델 | Partnership | Acceptance | Compassion | Evocation | Similarity | Effectiveness | Consistency | Fluency | On-topic |
---|---|---|---|---|---|---|---|---|---|
KMI (데이터셋) | 4.40 | 4.35 | 3.81 | 4.07 | 3.94 | 3.74 | 4.65 | 4.22 | 4.17 |
CounselGPT (데이터셋) | 2.78 | 2.86 | 3.05 | 2.88 | 2.96 | 2.66 | 3.69 | 3.40 | - |
AnnoMI (데이터셋) | 4.03 | 3.99 | 3.50 | 3.87 | 3.72 | 3.45 | 3.82 | 2.25 | - |
KMI (모델) | 4.43 | 4.04 | 3.29 | 3.70 | 3.18 | 3.00 | 4.30 | 3.55 | - |
CounselGPT (모델) | 2.97 | 2.69 | 2.31 | 2.92 | 2.60 | 2.10 | 3.70 | 2.70 | - |
AnnoMI (모델) | 3.17 | 2.74 | 2.44 | 2.73 | 2.46 | 2.28 | 3.40 | 2.50 | - |
모든 KMI와 타 데이터셋/모델 간 차이는 유의수준 0.01에서 통계적으로 유의함.
5 Discussion and Conclusion
- 본 논문에서는 한국어 동기면담(MI) 대화를 생성하는 새로운 프레임워크와 1,000개의 한국어 MI 대화로 구성된 KMI 데이터셋을 제안함.
- 종합적인 평가를 통해 데이터셋의 품질과 챗봇 개발에의 유용성을 입증함.
- MI 이론에 기반한 새로운 평가 지표도 함께 제안하여 의미 있는 평가 가능성을 높임.
KMI 데이터셋의 주요 활용처
- 정신 건강 챗봇 개발: 본 논문에서는 KMI를 활용해 한국어 챗봇을 학습시켰으며, 전문가 평가와 사용 예시(표 22 참고)에서 효과적인 챗봇 구축이 가능함을 확인.
- 분류 및 예측 작업용 라벨링 데이터셋: (발화, MI 라벨) 쌍으로 구성되어 있으며, MI 라벨 정확도 96.0%로 라벨의 신뢰성을 보장.
- MI 임상 실무자 참고 자료: 실제 치료 세션의 전체 대화는 보통 비공개인 반면, KMI는 다양한 주제를 포괄하는 고품질, 전체 대화를 제공함 (합성 데이터임에도 불구하고).
언어 확장 가능성
- 프레임워크는 다른 언어에도 일반화 가능하며, 한국어 특화 리소스는 다음과 같음:
- 컨텍스트 데이터
- 각 MI 라벨별 3~4개의 고품질 예시를 활용한 few-shot 프롬프트
- 한국어-영어 번역 모델
- 위 리소스가 있다면 비영어권 심리치료 자원 확충에 기여할 수 있음.
한계 및 오류 분석
- 대화 내 컨텍스트 미반영 문제:
- 클라이언트 시뮬레이터가 컨텍스트와 대화 이력을 고려하나, 상담자가 컨텍스트와 맞지 않는 방향으로 대화를 이끌 경우 클라이언트가 상담자 발화에만 반응하여 얕거나 주제 이탈이 발생할 수 있음.
- 과격하거나 폭력적인 온라인 상담 컨텍스트:
- GPT-4가 자동으로 필터링해 문제적 요소를 제거하나, 이로 인해 대화가 덜 구체적이고 현실적이지 않을 수 있음.
MI 예측기(영어 데이터 기반)
- KMI 이전에 공개된 한국어 MI 자원이 없어서 영어 MI 데이터셋 AnnoMI로 MI 예측기를 학습함.
- AnnoMI가 대부분 서양 문화권 기반이라 약간의 문화적 편향 가능성 존재.
- 하지만 MI 핵심 원칙(파트너십, 수용, 연민, 환기)은 언어와 문화를 초월해 보편적임.
- MI가 다양한 언어와 문화 집단에 적합하다는 선행 연구 결과와도 일치함.
번역의 영향
- 연구 과정에서 다음 두 가지 번역이 포함됨:
- KMI 생성 시 대화 이력을 영어로 번역해 MI 예측기 입력으로 사용.
- 평가 단계에서 AnnoMI를 한국어로 번역.
- 최신 번역 모델인 Upstage SOLAR(Kim et al., 2024) 사용해 의미 보존에 노력했으나 약간의 품질 저하는 불가피함.
- 심리치료 맥락에서는 미묘한 뉘앙스 차이가 큰 영향을 줄 수 있어 AnnoMI 번역이 더 중요한 문제임.
- MI 예측기는 대화 흐름과 내용 전체를 고려해 상세 표현의 차이가 상대적으로 덜 치명적임.
윤리적 고려사항
- 데이터 수집: 한국 심리상담 플랫폼 Mindcafe의 공개 데이터를 사용했으며, 사용자의 익명성과 사이트 내 글 보관 조건을 준수함.
- 인간 평가: 전문 상담사 4명과 일반 평가자 4명을 각각 적정 수준 이상의 보상을 지급하여 평가에 참여시킴.
정신 건강 지원 챗봇 관련 주의사항
- KMI 데이터셋은 MI 원칙에 부합하는 정신 건강 챗봇 개발 촉진을 목적으로 함.
- 그러나 생성 AI 챗봇의 예측 불가능성은 민감한 감정 대화에서 의도치 않은 문제를 초래할 수 있으므로, 실제 서비스 시에는 반드시 인간의 감독이 필요함.
독자 의견
- 상담사와 내담자 간의 대화 시뮬레이션을 통해 KMI 데이터셋을 생성하였는데, 이 방법이 실제 상담 세션과 얼마나 유사한지에 대한 평가가 필요함.
- 실제 상담 세션과의 비교 분석을 통해 KMI 데이터셋의 신뢰성을 높일 수 있을 것임.
- 내담자 시뮬레이터의 발화 생성 과정에서 closed LLM의 한계로 인해 비현실적인 발화가 생성될 가능성도 존재함.
- 상담에 특화된 모델을 사용하여 내담자 시뮬레이터의 발화 생성을 개선할 수 있을 것임.
Comments