10 minute read

본 논문은 언어 기반 인지 스타일 모델을 인간 행동 실험과 비교 평가하는 체계적 실험 프레임워크를 제안하며, 언어 특징을 통해 개인의 의사결정 스타일을 상당히 정확히 예측할 수 있음을 보여준다.


1 Introduction

  • 언어 모델의 발전과 함께 NLP 과제는 점점 언어 뒤에 숨겨진 사람들을 이해하는 데 초점을 맞추고 있음 (Choi et al., 2023; Dey et al., 2024).
  • 사회적, 심리적 NLP 연구는 주로 평가를 위해 주석(annotation)에 의존하고 있음.
    • 예: 감정 (Rosenthal et al., 2019; Mohammad et al., 2018), 공감 (Sharma et al., 2020), 정중함 (Hayati et al., 2021), 유머 (Meaney et al., 2021), 인지 부조화 (Varadarajan et al., 2023), 추론 능력 (Alhamzeh et al., 2022) 등.
  • 그러나 주석 기반 연구는 언어 생성자의 인지 상태를 포착하는 데 도움을 주지만, 심리적 과정의 실제 진실(ground truth)을 제공하지 못함.
    • 주석은 타인의 인지 상태에 대한 ‘인지된’ 인식을 반영할 뿐임 (Sandri et al., 2023; Sap et al., 2021).
    • 예시: 공감 주석은 관찰자가 공감적으로 인식하는 언어적 신호에 대한 것이지만, 실제 인간의 공감 경험과 항상 일치하지 않음 (Lahnala et al., 2022).
  • 행동과학 분야는 관심 있는 인지 구조를 이해하기 위해 실험적 패러다임에서의 직접 평가를 강조함.

  • 본 연구에서는 인지 현상이 유도된 실험과 함께 언어 데이터를 수집하는 실험적 프레임워크를 소개함.
    • 언어적 패턴과 특정 인지 현상을 연관 지어, 인간의 독특한 인지 스타일(주로 최종 의사결정 과정에서 관찰됨)을 이해하고자 함 (Campitelli and Gobet, 2010).
  • 본 연구는 현대 심리학의 실험 설계 방식을 따라 언어 사용이 인지 스타일, 즉 다양한 인지 현상과 관련된 반복적인 사고 패턴을 어떻게 신호하는지 정량화함.

  • 그림 1. 인지 과정을 검증하기 위한 언어 평가 대안 프레임워크:
    • 참가자들이 자신의 경험에 대해 글을 쓰도록 함으로써 사고 과정을 촉발시킴.
    • 이후 행동을 측정하는 실험을 수행, 이 행동은 인지 스타일의 진실된 지표로서 표현된 언어와 연결됨.
  • 주요 기여점:
    1. 인지 스타일의 언어 내 검증을 위한 실험 기반 평가 프레임워크 제안.
    2. 의사결정 인지 스타일 모델링을 위한 담화 및 기타 언어적 특징 탐색.
    3. 보다 엄격한 평가 환경에서도 언어가 개인 인지 스타일을 나타낼 수 있음을 발견.
    4. 의사결정 인지 스타일 언어를 위한 Decisions 데이터셋 제공.

2 Related Work

  • 사회과학 분야의 NLP는 주로 주석자(annotation)나 설문지의 레이블에 의존하지만, 행동과학 이론에서는 실험 설계를 통해 인지 상태를 보다 객관적으로 유도하고 포착할 수 있다고 제안됨.
    • 예: Saxbe et al. (2013)은 참가자가 다양한 감정을 유발하는 내러티브를 들으면서 뇌 활동을 촬영하는 실험을 실시함.
    • 이러한 방법은 심리적 과정을 이해하는 보다 객관적인 기초를 제공함 (Brook O’Donnell and Falk, 2015).
  • 본 연구는 의사결정 시 일관성을 유지하고 인지 부조화를 해소하는 경향성을 반영하는 인지 스타일에 중점 (Harmon-Jones and Harmon-Jones, 2007; McGrath, 2017).
    • 의사결정에 대한 사람들의 자각이 낮기 때문에 (Nisbett and Wilson, 1977), 인지 스타일은 결정 후 선호 변화 관찰을 통해 실험적으로 측정됨 (Simon et al., 2004; Aguilar et al., 2022).
  • 기존 NLP 연구들은 저자의 상태 측정을 주석 또는 자기보고 설문을 통해 검증해옴.
    • 예: 자가 공시를 분석하여 정서 상태를 자기보고 정신 건강과 비교 (Zirikly et al., 2019; Valizadeh et al., 2021).
    • 인지 스타일은 담론 맥락에서 연구됨 (Sharma et al., 2023; Juhng et al., 2023; Varadarajan et al., 2022, 2023).
  • 그러나 주석과 자기보고는 인지 편향(perceptual biases)에 취약함.
    • 대화 평가에서의 편향(Liang et al., 2020)이나 유머, 공감, 공격성 평가에서 관찰됨 (Yang et al., 2021; Paulhus et al., 2007; Buechel et al., 2018; Lahnala et al., 2024).
  • 이러한 한계를 극복하기 위해 본 연구에서는 인지 부조화와 일관성 관리를 객관적으로 포착하는 실험적 접근법을 채택함.

  • 담론 구조(discourse structures)는 인지 과정과 의사소통 패턴 간 이론적 연결고리를 제공하며, 개인이 설명을 구성하고 전달하는 방식을 엿볼 수 있는 창을 제공 (Van Dijk, 1990, 2014).
    • 심리학 연구는 언어 패턴과 인지 스타일 간 강한 연관을 확립했음 (Buchanan et al., 2013).
  • 담론 관계 분석은 텍스트 구간 간 명시적 및 암시적 연결을 모두 포착하여, 어휘 수준 특성에서 드러나지 않는 추론(reasoning) (Son et al., 2017, 2018a) 및 수사학적 구조 (Taboada and Mann, 2006) 등 깊은 설명 양식을 드러내는데 특히 유용함 (Juhng et al., 2023; Varadarajan et al., 2024).
    • 담론 분석은 텍스트 내 아이디어 연결 및 표현 방식을 이해하는 강력한 지표임 (Knaebel and Stede, 2023).
  • 본 연구에서는 담론 특징과 최신 대형 언어 모델(LLM)을 활용하여 인지 실험 결과를 모델링함.

3 Experiment

  • 총 514명의 참가자가 직접 모집되었고, 불완전하거나 무효한 응답 12명을 제외하여 최종 데이터셋은 502명으로 구성됨.
  • 데이터 수집은 2단계로 수행됨 (Figure 1 참조).
  • 설문지는 Appendix A에서 상세하게 설명됨.

작성 과제 (Writing Task)

  • 참가자들에게 의사결정 인지 스타일과 관련된 언어를 유도하기 위해 두 가지 질문 제시:
    1. “최근에 내린 중요하고 어려운 결정을 설명해주세요” (20-100 단어)
    2. “결정을 내릴 때 어떤 고려 사항들을 생각했나요? 모든 상황과 세부사항을 포함해서 설명해주세요” (100-300 단어)
  • 두 질문에 대한 에세이를 연이어 붙여서 분석에 활용함. 이를 ‘Decisions 데이터셋’이라고 칭함.

제약 만족도 실험 (Constraint Satisfaction Experiment)

  • Simon et al. (2004)의 실험을 복제하였으며, 선호 점수 계산법은 단일 속성 변화가 아닌 전체 선호 변화로 수정함.

1. 결정 전 선호도 (Pre-Decision Preferences)

  • 참가자들은 4가지 속성(출퇴근(com), 휴가(vac), 사무실 공간(off), 급여(sal))에 대해 6점 척도(-5에서 5, 간격 2)로 선호도 평가.
  • 각 속성은 긍정(+)과 부정(-) 질문으로 평가됨. 예)
    • com+ : 18분 출퇴근의 선호도
    • com− : 40분 출퇴근의 선호도
  • 각 속성 상대 가중치(W)는 1-8 척도로 평가.
  • 각 속성의 최종 선호도는 다음과 같이 계산됨: \(\rho_{com} = (com^{+} - com^{-}) \times W_{com}\)
  • \(\rho\) 값 범위는 -80 ~ +80임.

2. 직업 제안 (Job Offers)

  • 두 가지 선택지 제공, 두 직업 모두 최소 두 속성에서 타협이 필요함.
  • 옵션:
    • 회사 A: com+, vac+, off-, sal-
    • 회사 B: com-, vac-, off+, sal+
  • 각 회사의 선호 점수는 다음과 같이 계산됨: \(\psi_A = +\rho_{com} + \rho_{vac} - \rho_{off} - \rho_{sal}\) \(\psi_B = -\rho_{com} - \rho_{vac} + \rho_{off} + \rho_{sal}\)
  • \(\psi\) 값 범위는 -320 ~ +320임.
  • 참가자들은 주로 초기 선호와 일치하는 직업을 선택함.
  • 무작위로 위치(loc)라는 요인을 추가하여, 재미있는 쇼핑몰 근처 또는 따분한 건설 현장 근처 위치로 직업을 설명함. 이는 인지 부조화를 유발하여 타협을 강요하고 초기에 선호와 반대되는 선택을 유발하려는 목적임.

3. 결정 후 선호도 (Post-Decision Preferences)

  • 직업을 선택한 후, 결정 전 설문과 동일한 항목을 다시 평가함.

의사결정 결과 (Decision-Making Outcomes)

1. 선택 유도 변화 (Choice-Induced Shift, CIS)

  • 선호 변화는 결정 후 점수에서 결정 전 점수를 빼서 계산: \(CIS = \psi_{post A} - \psi_{pre A} \quad (선택 = A)\) \(CIS = \psi_{post B} - \psi_{pre B} \quad (선택 = B)\)
  • 이진화된 CIS는 선택한 직업 쪽으로의 선호 변화 방향을 표현함.

2. 영향 여부 (Influenced or Not, Inf)

  • 직업 제안에 위치(loc)라는 혼동 속성이 추가됨.
  • 많은 참가자들은 위치 정보에 영향을 받아 선택하지만, 모두가 마음을 바꾸는 것은 아님.
  • 이는 혼동 변수가 선택에 영향을 주었는지 여부를 나타내는 이진 변수임.

Decisions 데이터셋 설명

  • 토픽 모델링을 통해 참가자들이 기술한 어려운 결정 주제의 주요 테마 분석(개인 정보 보호 유지).
  • Figure 2에 따르면 참가자들의 결정 내용은 대학 교육, 진로 목표, 재정, 정신 건강, 우정, 가족 관계, 휴가 계획 등 학생 생활과 관련된 주제로 구성됨.
  • 에세이 평균 길이: 186.28 단어 (최소 120, 최대 508 단어)
  • 평균 Choice-Induced Shift (CIS): 25.6 (표준편차 38.4, 최소 -102.4, 최대 140.8)
    • 이는 Simon et al. (2004)의 결과와 일치하며, 대부분은 선택한 결정 쪽으로 선호가 변화하는 경향이 있음.
  • 502명 중 417명(83%)은 혼동 속성(loc)에 영향을 받았으며, 85명(17%)은 영향을 받지 않은 것으로 나타남.

4 Methods

  • 이론적으로 중요한 담화 관계 (Discourse Relations) 탐색
    1. 인과적 설명 (Causal explanations)
      • 의사결정 행동의 개별적 추론을 인과적 설명 탐지 모델로 추출.
      • 소셜 미디어 게시물을 기반으로 학습된 해당 모델의 F1-macro 점수는 0.85 (Son et al., 2018b).
      • 개인이 제공한 인과적 설명을 포함하는 메시지 비율을 추론.
    2. 반사실 (Counterfactuals)
      • 실제 사건 대신 일어날 수 있었던 대안적 현실을 나타내는 진술.
      • 소셜 미디어 데이터셋을 기반으로 한 반사실 관계 인식 모델 사용 (F1-macro = 0.77, Son et al., 2017).
      • 각 개인 메시지에서 반사실 진술 포함 비율 계산.
    3. 부조화와 조화 (Dissonance and Consonance)
      • Varadarajan et al. (2023)에서 소개된 인지 부조화를 언어 신호로 포착하는 모델 사용 (AUC = 0.75).
      • 연속된 구문에서 부조화 혹은 조화로 예측된 구문들의 평균 부조화 확률 계산.
    4. 담화 관계 임베딩 (Discourse Relation Embeddings)
      • 연속된 담화 주장(pair of discourse arguments)에서 추출된 임베딩 사용 (Son et al., 2022).
      • 메시지 수준에서 평균 집계하여 기타 담화 수준 정보를 포획.
  • 기본 베이스라인 모델들 탐색
    • 랜덤 베이스라인.
    • Llama3.1-8B-chat, Gemma-7B-Instruct2 에서 0-shot과 4-shot 프롬프트 적용.
    • RoBERTa-large의 L23 레이어 텍스트 임베딩의 평균을 이용한 예측 모델.
  • 의사결정 예측 모델 (Predictive Models for Decision Making)
    • 두 가지 결과 변수 함께 모델링: Choice-Induced Shift (CIS)와 Influence (Inf).
    • CIS와 Inf는 갈등 유발 정보를 접했을 때 개인이 흔들리는 경향의 크기와 방향을 포착.
    • 두 변수를 결합하여 하나의 변수 \(CIS\_Inf\) 생성.
    • 네 가지 독특한 인지 스타일로 분류:
      • (a) Negative CIS, Not Influenced (↓CIS↓Inf, 6%)
      • (b) Negative CIS, Influenced (↓CIS↑Inf, 17%)
      • (c) Positive CIS, Not Influenced (↑CIS↓Inf, 11%)
      • (d) Positive CIS, Influenced (↑CIS↑Inf, 66%)
    • LLM들은 CIS와 Inf 정의를 포함하여 프롬프트됨 (§B.1 참고).
    • 특징들을 이용하여 4-클래스 로지스틱 회귀 모델 적용.
    • DLATK 도구를 활용해 층화 5-겹 교차검증 정확도 평가 (Schwartz et al., 2017).
  • 모델 성능 (Table 1 요약)
    • 랜덤 베이스라인 AUC: 0.50
    • 담화 특징별 AUC:
      • 인과적 설명: 0.81
      • 반사실: 0.80
      • 조화: 0.81
      • 부조화: 0.80
      • 담화 관계 임베딩 전체: 0.76 (845차원)
      • 담화 관계 임베딩 축소(16-D): 0.79
    • Llama3.1 (0-shot): 0.56, (4-shot): 0.64
    • Gemma (0-shot): 0.56, (4-shot): 0.79
    • RoBERTa-L23: 0.69
    • 참가자의 실험 전 작성 텍스트의 언어적 측정값으로 CIS_Inf를 중간에서 높은 정확도로 예측 가능함.

5 Results

  • 본 연구는 개인의 설명 스타일과 언어 내 연계성(coherence)을 포착하는 담화 관계 모델이 개인의 의사결정에서 나타나는 인지 스타일을 예측하는지 검증함.
  • 표 1에서, CIS_Inf로 표현된 인지 스타일이 언어에서 예측 상관관계를 가짐을 보여줌.
    • CIS_Inf는 실험 전후 개인의 선호 변화 및 결정에 영향을 받았는지를 나타내는 두 변수를 포함 (Fig 3).
  • 담화 관계 임베딩 자체는 예측력이 낮으나, 인과관계(Causal) 및 일치 관계(Consonance)와 같은 특정 담화 관계는 실제 의사결정과 관련된 인지 스타일 예측에 높은 성능을 보임.
  • 담화 관계 특징들이 AUC 약 0.8을 기록하여, 언어가 행동을 통해 드러나는 인지 스타일을 포착할 가능성을 제시함.
  • Few-shot prompting이 담화 특징과 비슷한 성능을 보이지만, 담화 특징의 성공은 대형 언어모델 대비 훨씬 적은 파라미터 수에서 얻어졌다는 점에서 특히 주목됨.
  • 해석 가능한 담화 특징의 유효성은 언어적 패턴이 근본적인 인지 스타일을 반영한다는 연구 결과를 강화함.

  • 각 인지 스타일 유형과 관련된 언어적 패턴 탐색을 위해 이론적으로 관련된 어휘 및 담화 관계 특징을 추출하여 CIS_Inf의 각 클래스를 예측함 (표 2).
  • 표 2 및 결과 요약:
    • 네 가지 클래스가 성격 특성(OCEAN), 불안, 스트레스, 고독, 공감 관심 등 어휘 기반 척도에서 명확히 구분됨.
    • 인과관계(Causal) 담화 관계가 ↓CIS↓Inf 클래스와 Cohen’s d = 0.29로 높은 효과 크기를 가짐.
    • 최근 과거 의사결정 서술에서 인과적 설명과 불일치(dissonant) 진술을 많이 사용하는 사람은 외부 영향에 덜 영향을 받고, 선호도 변화도 적음.
    • 반면, 일치 관계(consonant) 진술이 적은 사람은 실험 중 의사결정 후 선호가 더 많이 바뀌는 경향을 보임.
    • 높은 언어적 불일치는 선호 변화/영향받음 경향성 감소와 연결되며, 이는 자신의 결정 관련 불일치 해소 어려움을 나타낼 수 있음.
    • 높은 불안 표현은 영향을 덜 받으면서 선호 변화가 큰 스타일과 연관됨.
    • 각 인지 스타일별로 성격과 웰빙 차원에서 뚜렷한 언어적 특징(signature)을 가짐.
    • 이는 시뮬레이션 실험 기반 개인 의사결정 인지 스타일이 개인의 담화 및 설명 스타일에서 파악 가능함을 시사.
  • 권고 사항:
    • 평가 프레임워크 초기 단계로서, 전통적 주석(annotation) 기반 방법을 넘어 직접 행동 측정을 언어 분석에 통합할 것을 권장.
    • 주석은 인지 상태에 대한 외부 판단에 의존하므로 직접적 심리 증거가 부족한 반면, 심리학에서 널리 쓰이는 실험 패러다임은 통제된 환경에서 체계적으로 인지와 행동을 측정함.
    • 생태학적 타당성 확보를 위해 실험 이전에 언어 데이터를 수집하여 실험이 참가자 반응에 미치는 영향 방지 필요.
    • 인지 과정을 더 잘 포착하기 위해 언어 특징과 함께 반응 시간, 클릭률, 동적 응답 변화 등 행동 지표를 결합하는 멀티모달 접근이 필요.
    • 이 접근법은 언어와 인지 간 관계에 대한 강력한 증거를 제공하며, 주관적 주석에만 의존하지 않고 실제 심리 과정을 기반으로 NLP 모델 평가 가능.
    • 실험 방법 통합은 언어 기반 모델의 과학적 기반을 강화하고 인지 과학, 의사결정 연구, 인간-컴퓨터 상호작용 분야에서 타당성을 향상시킴.

6 Conclusion

  • 실험적으로 유도된 인지 스타일은 언어를 통해 효과적으로 포착될 수 있음을 입증하였으며, 이는 종종 개인의 진정한 상태를 반영하지 못하는 행동 인식 주석에 비해 보다 확고한 ‘실제 근거(ground truth)’를 제공함.
  • 본 프레임워크는 통제된 심리 실험을 통한 방법론적 엄격함을 강조하여, 언어 패턴과 현실적인 인지 상태 추정 간의 견고한 연결고리를 확립함.
  • 언어 기반 특징이 객관적인 인지 스타일을 강력하게 예측할 수 있음을 실증하였으며, 특히 담화(disourse) 특징이 실험적으로 측정된 인지 스타일을 성공적으로 포착함.
  • 이 접근법은 통계적 타당성을 높일 뿐만 아니라, 대형 언어 모델(LLM)을 활용한 정신 건강 치료, 에이전트 참여 시스템, 인지 과학 등 실용적 응용 분야에도 기여함.
  • 주석 기반 또는 설문 기반 레이블의 한계를 넘어, 본 패러다임은 NLP 분야에서 더욱 엄격한 평가를 가능케 하는 중대한 진전을 나타내며, 언어와 인지 간 관계 이해에 있어 미래 연구의 유망한 방향성을 제시함.
  • 특히, 인지 스타일 예측의 수학적 표현에서는 다음과 같은 형태가 활용될 수 있음: \(\text{인지 상태} = f(\text{언어 패턴}) \quad \text{및} \quad \vert \text{실험 측정값} - \hat{y} \vert \rightarrow \min\)

Limitations

  • 본 실험은 Simon et al. (2004)의 복제를 병행하며 언어를 통해 인지 부조화를 포착하고자 했으나, 실험 내에서 참가자들이 자신의 의사결정 과정을 명시적으로 논하도록 하는 직접적인 질문은 포함하지 않음.
  • 간접적인 글쓰기 유도에도 불구하고, 실험 결과와 무관하게 개인의 인지 스타일을 포착하는 데는 성공적이었음.
  • 실험은 모의 취업 제안 시나리오를 제공하였으나, 실제 상황에서는 결과가 다를 수 있음.
  • 본 연구는 데이터 수집에 심리학 실험을 포함하여 명시적인 언어 구조와 관찰 가능한 심리적 구성 요소 간의 연관성을 탐색하는 초기 단계임.
  • 사회 심리학 분야에서 흔히 하듯이 실제 의사결정 문제의 단순화된 추상화를 사용하였으나, 이로 인해 참가자들의 실제 의사결정 행동을 직접 예측하는 데 한계가 있음.
  • 담화 관계(discourse relations)는 원래 일관성과 수사적 구조를 통해 인지 상태를 파악하도록 고안되었으나, 이를 추론하는 예측 모델 기반 방법은 어휘적 측정값 및 맥락적 표현에 비해 상관관계 향상에 미미한 기여만 함.
  • 이는 일반적인 맥락 임베딩(contextual embeddings)만으로도 언어에서 인지 스타일과 인간 행동을 파악하는 데 충분한 정보를 포함할 수 있음을 시사함.
  • 연구 대상은 공립 대학의 학부생으로 한정되어 있어 결과를 다른 인구집단이나 연령층에 일반화하는 데 제약이 있음.
  • 학부생들이 경력 개발의 과도기라는 측면에서 취업 결정에 집중한 것은 적절하나, 다양한 생애 단계 혹은 전문 환경의 개인들과 비교할 때 의사결정 과정이 상당히 다를 수 있음.
  • 참가자가 대학으로 제한되어 수가 적고 다양성도 제한적이어서, 효과 크기(effect size)에 제약을 초래함.

Comments