11 minute read

본 논문은 전문 치료사 지식을 반영한 동기면담(MI) 시뮬레이션 프레임워크를 통해 한국어 MI 대화 1,000건의 고품질 합성 데이터셋(KMI)을 생성하고, 이를 기반으로 한 대화 모델의 전문성과 실용성을 평가하였다.


1 Introduction

  • 현대 사회에서 정신 건강 문제는 매우 중요한 이슈로 부상하고 있으며, 이에 따른 정신 건강 서비스 수요가 증가하고 있음.
  • 하지만 정신 건강 서비스를 제공할 충분한 인력이 부족한 상황(Butryn et al., 2017).
  • 이에 AI 기반 챗봇을 활용한 정신 건강 지원 연구가 활발히 진행되고 있으나, 아래와 같은 여러 도전 과제가 존재함.
    • 개인정보 보호 문제
    • 데이터 수집에 소요되는 비용과 시간
    • 정신 건강 전문가의 지식 필요성
  • Cho et al. (2023)은 많은 정신 건강 챗봇들이 심리치료의 이론적 근거 없이 설계되어 효과성에 의문이 있다고 지적함.
  • 이러한 한계를 극복하기 위한 이론적 기반으로서 Motivational Interviewing (MI) 기법이 주목받고 있음.
    • MI는 내담자의 양가감정을 탐색하고 해결하도록 돕는 행동 변화 유도 중심 상담 기법(Miller and Rollnick, 2002).
    • MI는 MITI(Motivational Interviewing Treatment Integrity) 등 잘 구성된 행동 코딩 체계를 바탕으로 NLP와 심리치료 융합 연구에서 활발히 활용됨.
  • 기존 MI 데이터셋들은 다음과 같은 문제점들을 가짐.
    • Pérez Rosas 등(2016)의 MI 데이터셋: 유튜브와 비메오 영상 자동 자막 활용, 윤리적 이유로 공개 불가
    • Welivita and Pu (2022): 온라인 동료 지원 포럼 데이터, 전문가 상담과 MI 방식 차이로 전문성 부족
    • Wu et al. (2023)의 AnnoMI: 133개 대화, 전문 MI 시범 영상에서 전사 및 주석, 그러나 양적 제한 및 인력 소요 문제
  • 기존 데이터셋의 한계
    • 전문성 부족 또는 데이터 양 부족
    • 대화문에 방언, 버벅임 등 챗봇에 부적절한 요소 존재
    • 주로 영어에 국한되어 있어, 비영어권 언어 및 문화 연구 부족
  • 본 논문에서는 이러한 문제 해결을 위해 대형 언어 모델(LLM)을 활용한 합성 MI 대화 생성 프레임워크를 제안함.
    • 치료사 시뮬레이터와 내담자 시뮬레이터 두 에이전트를 설계하고, few-shot in-context learning으로 번갈아 발화 생성
    • 전문가 치료사의 전문성 반영을 위해 치료사 행동 예측기(MI forecaster) 모델을 학습하여 활용
    • 비영어권인 한국어를 대상으로 실제 한국 상황을 반영한 대화 생성
  • 결과물로서 총 1,000개의 한국어 MI 대화로 구성된 KMI 데이터셋을 제시함.
    • KMI는 비영어권, MI 이론 기반, 비전사 데이터 생성을 모두 충족하는 유일한 데이터셋(그림 1 참고)
    • 한국인의 공통적 고민과 불안을 포함하고, 전문 치료사의 MI 전략을 접목
    • 각 치료사 발화에 치료사 행동 레이블 부여
  • 본 연구의 최초 시도
    • LLM의 생성 능력을 활용하여 MI 데이터셋을 구축한 첫 사례
  • 평가 방법 및 결과
    • 전문가 상담사를 통한 종합 평가 진행
    • MI 이론과 일반 대화 시스템 관점에서 데이터셋 품질 검증
    • MI 정신을 직접 측정하는 새로운 평가 메트릭 도입
    • KMI로 학습한 대화 모델의 유용성 확인
  • 주요 기여점
    1. 실제 치료사의 행동 선택을 모사하는 MI forecaster 모델을 학습 및 활용하여 전문성 있는 MI 세션 시뮬레이션 프레임워크 제안
    2. MI 이론에 기반한 최초의 합성 한국어 MI 대화 데이터셋 KMI(1,000개 대화) 공개로 심리치료 데이터 부족 문제 해결
    3. 전문가 평가와 MI 기반 새로운 평가 지표를 통해 KMI의 품질, 전문성, 실용성을 입증

2 Related Work

  • 대화 생성에 LLM 활용
    • 최근 연구들은 다양한 응용을 위한 대화 생성에 LLMs 사용에 집중.
    • Kim et al. (2022): 문제성 콘텐츠 처리를 위한 대규모 대화 데이터셋 구축을 위한 인간-기계 협업 프레임워크 제안.
    • Chen et al. (2023a): 소수의 전문가 작성 대화를 문맥 예제로 사용하여 합성 다자간 대화 생성.
    • Chen et al. (2023b): 혼합 주도 대화를 생성하기 위한 LLM 프롬프트 방법 제안.
    • Kim et al. (2023): LLM으로부터 대화를 증류하여 대규모 사회적 대화 데이터셋 생성.
    • Macina et al. (2023): 인간 교사와 LLM 학생을 페어링하여 수학 추론 문제에 기반한 교사-학생 튜터링 대화 생성.
  • MI(동기부여 면담) 분야에서 NLP 응용
    • MI는 불이행 상태 해소와 변화에 대한 헌신 지원 기법으로, 내담자 중심 치료의 진화된 방법론 (Miller, 1983).
    • NLP 발전과 함께 MI 분야에 NLP 기법 적용 연구 활발.
    • MI 행동 코드를 자동 분류하는 여러 접근법 제안:
      • 초기 연구: 언어적 특징 활용 (PérezRosas et al., 2017), 순환 신경망 구조 적용 (Tanana et al., 2015; Xiao et al., 2016; Cao et al., 2019; Gibson et al., 2019).
      • 최근 연구: RoBERTa 같은 사전학습 언어모델 활용 (Liu et al., 2019; Tavabi et al., 2021; Welivita and Pu, 2023).
      • 멀티모달 접근: 음성 특징 (Tavabi et al., 2020), 얼굴 특징 (Nakano et al., 2022) 포함.
    • Welivita and Pu (2023):
      • LLM이 MI 전략을 활용한 대화 증진에 잠재력 있음 입증.
      • 온라인 플랫폼에서 수집된 MI 데이터셋에서 조언의 92.86%가 허가 없는 조언(non-adherent category)으로 파악.
      • BlenderBot (Roller et al., 2021) 및 GPT-3 (Brown et al., 2020)를 미세조정하여 MI 부합 조언(허가 있는 조언)으로 대답 재구성 시도.
      • 하지만, 이러한 재구성은 발화 방식 수정에 국한되어 내용 수정에서는 한계 존재.
    • 본 연구에서는 LLM의 생성 능력을 더욱 활용하여 데이터셋을 처음부터 생성하는 방향으로 확장.

3 KMI: A Dataset of Korean Motivational Interviewing Dialogues

  • 본 섹션에서는 현실적인 동기부여 면담(MI) 대화를 생성하기 위한 새로운 프레임워크를 소개함. 전체 프레임워크는 그림 2에 나와 있음.
  • 첫째, 한국인의 실제 고민과 불안을 반영하는 맥락 데이터(Section 3.1)를 수집. 각 맥락은 각각의 대화 주제로 사용됨.
  • 둘째, 치료사 시뮬레이터와 내담자 시뮬레이터를 활용해 MI 세션을 시뮬레이션(Section 3.2)함.
  • 마지막으로, 생성된 KMI 데이터셋을 Section 3.3에서 제시함.

3.1 맥락 데이터 수집

  • 현실적인 대화 생성을 위한 맥락 데이터를 구축하기 위해 Mindcafe라는 한국 심리상담 플랫폼에서 웹 크롤링 수행.
  • 총 7,530개의 게시글을 7개의 카테고리에서 수집: 정신건강, 대인관계, 자아 및 성격, 진로 및 취업, 학업 및 시험, 중독 및 집착, 가족.
  • GPT-4 API를 사용하여 게시글의 구체성과 MI 세션 주제로 적합성에 대해 1~3점으로 평가.
  • 점수 3점을 받은 3,098개 중 각 카테고리별로 정해진 수량인 1,000개를 샘플링.
  • 수집, 필터링, 샘플링의 상세 내용은 Appendix A 참고.

3.2 동기부여 면담

  • 각 맥락별로 LLM 기반 치료사 시뮬레이터(Section 3.2.1)와 내담자 시뮬레이터(Section 3.2.2)를 통해 MI 세션을 시뮬레이션.
  • 두 시뮬레이터가 번갈아가며 발화를 생성하며, 대화는 치료사의 일반적인 오픈 질문(“안녕하세요, 오늘 어떤 고민이 있으신가요?”)으로 시작.
  • 치료사 발화는 MITI 코드(Moyers et al., 2003, 2014)를 바탕으로 한 총 8가지 MI 라벨로 분류되며(Table 1 참고), 각 발화에 해당 라벨이 주석으로 부여됨.
MI 라벨 설명 예시
Simple Reflection 이전 발화 반복, 재구성 또는 바꿔 말하기 “걱정이 많이 되시는 것 같네요.”
Complex Reflection 이전 발화 재진술 + 의미/강조 추가 “책임감이 강하게 느껴지시는군요.”
Open Question 다양한 답변을 유도하는 질문 “그 부분에 대해 어떻게 생각하세요?”
Closed Question 예/아니오 혹은 제한된 답변 유도 질문 “이게 장점이라고 생각하세요?”
Affirm 긍정적 피드백으로 격려 “과거 노력에 자부심을 가져야 해요.”
Give Information 조언 없이 정보 제공 또는 의견 전달 “갈망 기록은 재발 방지에 중요해요.”
Advise 제안, 해결책, 행동 권유 “도움을 줄 아이디어를 함께 생각해볼까요?”
Other 그 외 나머지 발화 “안녕하세요.”

3.2.1 치료사 시뮬레이터

  • 전문 치료사의 MI 일관된 행동을 모방하는 것이 중요.
  • MI forecaster와 결정 모듈을 통해 다음 턴 치료사 행동(MI 라벨)을 예측 후, LLM을 프롬프트하여 예측된 행동 기반으로 발화를 생성.
  • MI Forecaster는 AnnoMI 데이터셋(Wu et al., 2023)을 활용해 T5-base 모델을 파인튜닝하여 치료사 다음 행동 예측 (라벨 분류) 수행.
  • Affirm 라벨은 기존 데이터에 RoBERTa 기반 MI 분류기(Welivita and Pu, 2023)로 추가함.
  • 입력 텍스트는 대화 기록과 함께 각 발화에 해당 라벨 포함 여부를 두 가지 설정으로 실험.
  • top-3 정확도 기준 평가 (top-1이 유일 정답이 아닐 수 있음).
  • 결과: 최근 6개 발화 및 치료사 라벨 포함 시 최고 성능(71.26% top-3 정확도).
  • 두 가지 규칙을 적용하는 결정 모듈:
    1. 동일 치료사 라벨이 3회 연속 불가.
    2. 치료사는 연속적으로 3회 질문(오픈 혹은 클로즈드) 불가.
  • 이렇게 결정된 라벨에 대해, LLM을 in-context learning으로 프롬프트하여 치료사 발화 생성.
  • 프롬프트에는 한국 MI 교재의 정의 및 실제 상담가 발화 예시 3개(발화 유형별 포함) 사용.
  • 생성 과정에서 대화 종료 조건도 명시 (내담자 고민이 해결되었다고 판단 시 종료).

3.2.2 내담자 시뮬레이터

  • LLM을 직접 프롬프트하여 내담자 발화 생성.
  • 대화 맥락과 이력 기반 응답 생성.
  • 내담자가 변화 의지를 표현하는 “변화 말하기(change talk)” 발화를 유도하는 전략 적용.
  • 변화 말하기 예시는 한국 MI 교재에서 추출한 4가지 유형(DARN: Desire, Ability, Reasons, Need) 포함.
  • 프롬프트에는 정의, 예시 4개 및 제약조건 포함.
  • 최종적으로 1,000개의 한국어 MI 대화로 구성된 KMI 데이터셋 생성.

3.3 KMI 데이터셋 통계

  • 총 1,000개의 대화, 평균 18.12 턴/대화.
  • 치료사 발화는 MITI 8가지 라벨 중 하나로 주석화됨.
  • 각 라벨 출현 빈도 (총 치료사 발화 8,558개 기준):

    • Complex Reflection: 3,055 (36%)
    • Open Question: 2,305 (27%)
    • Simple Reflection: 1,269 (15%)
    • Affirm: 914 (11%)
    • Other: 779 (9%)
    • Closed Question, Give Information, Advise: 각 1% 내외
  • Reflection(반영)과 Question(질문)의 비율인 R:Q 비율은 약 \(1.8:1\)로, MITI 매뉴얼의 전문가 수준(좋음, 2:1)에 근접.
  • 본 데이터셋은 현실적인 한국어 MI 대화 모델링 및 후속 NLP 연구에 유용함.
  • 예시 대화는 그림 4 및 Appendix J 참고.

4 Evaluation

  • 본 절에서는 생성된 데이터셋의 품질(4.2절)과 해당 데이터셋으로 파인튜닝된 대화 모델의 성능(4.3절)을 평가함.
  • 비교 대상 데이터셋은 OpenAI API를 활용해 만들어진 유일한 한국어 상담 데이터셋인 CounselGPT와 AnnoMI임.
  • AnnoMI는 한국어 평가를 위해 SOLAR 번역 API를 통해 한국어로 번역하여 사용함.

4.1 Evaluation Criteria

  • 평가 대상: MI(Motivational Interviewing, 동기면담) 품질과 일반 대화 시스템의 품질 두 관점에서 평가함.

MI 품질 평가 항목 (MI Quality)

  1. Partnership (협력)
  2. Acceptance (수용)
  3. Compassion (연민)
  4. Evocation (환기)
  5. Similarity (유사성): 실제 치료사의 발화와 생성된 치료사 발화의 유사도
  6. Effectiveness (효과성): MI 세션의 전반적 효능
  • (1)~(4)은 MI 이론(Miller and Rollnick, 2012)에서 도출된 핵심 정신임.
  • 평가 기준에 관한 자세한 설명은 부록 F에 있음.

일반 품질 평가 항목 (General Quality)

  1. Consistency (일관성): 대화 전반 및 턴 간 발화가 일관적인지
  2. Fluency (유창성): 대화 흐름과 발화의 자연스러움 및 부드러움
  3. On-topic (주제 적합성): 대화 내용이 주어진 문맥과 관련성이 있는지

4.2 Evaluation of Dataset

평가 방식

  • MI 품질과 일반 품질은 한국어 MI 경험이 풍부한 상담 심리전문가 4인을 통한 인간 평가로 진행됨.
  • KMI, CounselGPT, AnnoMI 각 데이터셋에서 무작위로 100개 대화를 샘플링하여 평가함.
  • 전문가들은 1~5점 리커트 척도로 평가하고 다수결 방식으로 중앙값 점수를 산출함.
  • 평가 양식은 부록 I의 그림 5에 있음.

MI 품질 평가 결과 (표 3 요약)

  • KMI는 모든 MI 평가 항목에서 CounselGPT와 AnnoMI를 능가함.
  • CounselGPT는 MI 이론에 기반하지 않아 전반적으로 낮은 점수를 받음.
  • AnnoMI는 MI 품질 점수는 높으나 유사성 점수는 KMI보다 낮음 (번역 과정에서의 품질 저하 가능성).
  • KMI 유사성 3.94점, 효과성 3.74점으로 정신치료 자원으로서의 가치 입증.

일반 품질 평가 결과 (표 3 요약)

  • KMI가 Consistency 4.65점, Fluency 4.22점으로 최상위 성과.
  • CounselGPT와 AnnoMI보다 높은 점수를 보이며, 한국어 맞춤형 프레임워크의 우수성을 시사.
  • On-topic 점수 4.17점으로 실제 한국 상황과의 높은 적합성 확인.
  • CounselGPT, AnnoMI는 문맥 데이터가 없어 On-topic 평가는 제외됨.

MI 라벨 정확도 평가

  • KMI에서 MI 라벨별 발화 30개씩(총 210개)을 무작위 샘플링하여 True/False 방식으로 적합성 평가 진행.
  • 평균 정확도 96.0%로 대부분 발화가 할당된 라벨과 일치함.
MI 라벨 정확도 (%)
Simple Reflection 96.7
Complex Reflection 96.7
Open Question 100.0
Closed Question 95.0
Affirm 96.7
Give Information 90.0
Advise 96.7
평균 96.0

4.3 Evaluation of Dialogue Model Training

실험 환경

  • KMI, CounselGPT, 번역한 AnnoMI 데이터로 각각 LLaMA 27B 기반 한국어 멀티태스크 지침 튜닝 모델(komt-llama2-7b-v1)을 파인튜닝함.
  • 평가에는 4명의 원어민 한국인 크라우드워커가 참여해 문맥 데이터를 기반으로 모델과 30회 대화 진행.
  • 평가된 대화는 4명의 전문가가 인간 평가(리커트 5점 척도)로 진행함.

MI 품질 평가 결과 (표 5 요약)

  • KMI로 튜닝된 대화 모델이 모든 MI 평가 기준에서 다른 모델 대비 대폭 우수한 성과를 보임.
  • 상대적으로 낮은 Similarity와 Effectiveness 점수는 7B 크기의 기본 모델 제한 때문으로 추정됨.
  • CounselGPT와 AnnoMI 기반 모델은 대부분 3점 이하로 MI 챗봇 훈련 적합성에 한계 있음.
  • 부록 K의 예시 대화에서 KMI 기반 모델은 MI 원칙을 준수하는 발화를 생성함을 확인, 반면 다른 모델은 과도하게 긴 발화 경향이 있음.

일반 품질 평가 결과 (표 5 요약)

  • KMI 기반 모델이 Consistency 4.30점, Fluency 3.55점으로 타 모델 대비 우수.
  • AnnoMI 기반 모델은 최하위 점수를 기록해 전사 데이터 사용의 한계가 드러남.
  • On-topic 평가는 대화 모델이 아니라 사용자 주도로 논의 주제가 결정되므로 수행하지 않음.

참고 표

데이터셋/모델 Partnership Acceptance Compassion Evocation Similarity Effectiveness Consistency Fluency On-topic
KMI (데이터셋) 4.40 4.35 3.81 4.07 3.94 3.74 4.65 4.22 4.17
CounselGPT (데이터셋) 2.78 2.86 3.05 2.88 2.96 2.66 3.69 3.40 -
AnnoMI (데이터셋) 4.03 3.99 3.50 3.87 3.72 3.45 3.82 2.25 -
KMI (모델) 4.43 4.04 3.29 3.70 3.18 3.00 4.30 3.55 -
CounselGPT (모델) 2.97 2.69 2.31 2.92 2.60 2.10 3.70 2.70 -
AnnoMI (모델) 3.17 2.74 2.44 2.73 2.46 2.28 3.40 2.50 -

모든 KMI와 타 데이터셋/모델 간 차이는 유의수준 0.01에서 통계적으로 유의함.


5 Discussion and Conclusion

  • 본 논문에서는 한국어 동기면담(MI) 대화를 생성하는 새로운 프레임워크와 1,000개의 한국어 MI 대화로 구성된 KMI 데이터셋을 제안함.
  • 종합적인 평가를 통해 데이터셋의 품질과 챗봇 개발에의 유용성을 입증함.
  • MI 이론에 기반한 새로운 평가 지표도 함께 제안하여 의미 있는 평가 가능성을 높임.

KMI 데이터셋의 주요 활용처

  • 정신 건강 챗봇 개발: 본 논문에서는 KMI를 활용해 한국어 챗봇을 학습시켰으며, 전문가 평가와 사용 예시(표 22 참고)에서 효과적인 챗봇 구축이 가능함을 확인.
  • 분류 및 예측 작업용 라벨링 데이터셋: (발화, MI 라벨) 쌍으로 구성되어 있으며, MI 라벨 정확도 96.0%로 라벨의 신뢰성을 보장.
  • MI 임상 실무자 참고 자료: 실제 치료 세션의 전체 대화는 보통 비공개인 반면, KMI는 다양한 주제를 포괄하는 고품질, 전체 대화를 제공함 (합성 데이터임에도 불구하고).

언어 확장 가능성

  • 프레임워크는 다른 언어에도 일반화 가능하며, 한국어 특화 리소스는 다음과 같음:
    1. 컨텍스트 데이터
    2. 각 MI 라벨별 3~4개의 고품질 예시를 활용한 few-shot 프롬프트
    3. 한국어-영어 번역 모델
  • 위 리소스가 있다면 비영어권 심리치료 자원 확충에 기여할 수 있음.

한계 및 오류 분석

  • 대화 내 컨텍스트 미반영 문제:
    1. 클라이언트 시뮬레이터가 컨텍스트와 대화 이력을 고려하나, 상담자가 컨텍스트와 맞지 않는 방향으로 대화를 이끌 경우 클라이언트가 상담자 발화에만 반응하여 얕거나 주제 이탈이 발생할 수 있음.
  • 과격하거나 폭력적인 온라인 상담 컨텍스트:
    • GPT-4가 자동으로 필터링해 문제적 요소를 제거하나, 이로 인해 대화가 덜 구체적이고 현실적이지 않을 수 있음.

MI 예측기(영어 데이터 기반)

  • KMI 이전에 공개된 한국어 MI 자원이 없어서 영어 MI 데이터셋 AnnoMI로 MI 예측기를 학습함.
  • AnnoMI가 대부분 서양 문화권 기반이라 약간의 문화적 편향 가능성 존재.
  • 하지만 MI 핵심 원칙(파트너십, 수용, 연민, 환기)은 언어와 문화를 초월해 보편적임.
  • MI가 다양한 언어와 문화 집단에 적합하다는 선행 연구 결과와도 일치함.

번역의 영향

  • 연구 과정에서 다음 두 가지 번역이 포함됨:
    1. KMI 생성 시 대화 이력을 영어로 번역해 MI 예측기 입력으로 사용.
    2. 평가 단계에서 AnnoMI를 한국어로 번역.
  • 최신 번역 모델인 Upstage SOLAR(Kim et al., 2024) 사용해 의미 보존에 노력했으나 약간의 품질 저하는 불가피함.
  • 심리치료 맥락에서는 미묘한 뉘앙스 차이가 큰 영향을 줄 수 있어 AnnoMI 번역이 더 중요한 문제임.
  • MI 예측기는 대화 흐름과 내용 전체를 고려해 상세 표현의 차이가 상대적으로 덜 치명적임.

윤리적 고려사항

  • 데이터 수집: 한국 심리상담 플랫폼 Mindcafe의 공개 데이터를 사용했으며, 사용자의 익명성과 사이트 내 글 보관 조건을 준수함.
  • 인간 평가: 전문 상담사 4명과 일반 평가자 4명을 각각 적정 수준 이상의 보상을 지급하여 평가에 참여시킴.

정신 건강 지원 챗봇 관련 주의사항

  • KMI 데이터셋은 MI 원칙에 부합하는 정신 건강 챗봇 개발 촉진을 목적으로 함.
  • 그러나 생성 AI 챗봇의 예측 불가능성은 민감한 감정 대화에서 의도치 않은 문제를 초래할 수 있으므로, 실제 서비스 시에는 반드시 인간의 감독이 필요함.

독자 의견

  • 상담사와 내담자 간의 대화 시뮬레이션을 통해 KMI 데이터셋을 생성하였는데, 이 방법이 실제 상담 세션과 얼마나 유사한지에 대한 평가가 필요함.
  • 실제 상담 세션과의 비교 분석을 통해 KMI 데이터셋의 신뢰성을 높일 수 있을 것임.
  • 내담자 시뮬레이터의 발화 생성 과정에서 closed LLM의 한계로 인해 비현실적인 발화가 생성될 가능성도 존재함.
  • 상담에 특화된 모델을 사용하여 내담자 시뮬레이터의 발화 생성을 개선할 수 있을 것임.

Comments