[논문리뷰] Red Teaming Language Models for Processing Contradictory Dialogues (EMNLP 2024)

11 minute read

대부분의 언어 모델이 대화 중 자기 모순을 일으키는 문제를 해결하기 위해, 이 연구는 모순적 대화 처리 작업을 통해 대화 내 모순적 발언을 탐지하고 수정하는 방법을 탐구합니다. 모순적 대화를 포함한 데이터셋을 개발하여 이러한 대화를 탐지 및 설명하고 수정하는 프레임워크를 제시하며, 실험 결과는 탐지 능력과 설명 제공 능력의 향상을 보여줍니다.

1 Introduction

대화 시스템은 언어 모델링과 학습 기술의 빠른 발전으로 최근 몇 년간 큰 진전을 이루었다.
인간과 기계 간의 대화를 이해하고 분석하는 데 중점을 두며, 지능형 상호작용 시스템 개발의 중요한 구성 요소로 자리 잡고 있다.
ChatGPT와 같은 대형 언어 모델(LLMs)의 등장은 대화 관련 연구에 중요한 역할을 했다.
이러한 모델들은 복잡한 맥락을 이해하고 유창한 대화 응답을 생성하는 데 있어 인상적인 능력을 보여준다.
모델은 요약, 설명, 문의, 역할극 등의 다양한 작업에서 뛰어난 제어력을 보여준다.
그러나 대화 내의 의미적 갈등, 예를 들어 모순과 사실 오류는 언어 모델(LMs)이 인식하고 해결하는 데 어려움을 겪으며, 인간-기계 상호작용의 경험을 저하시킨다.
논리학 연구에 따르면 모순은 두 개 이상의 진술이 동시에 참일 수 없는 상황을 지칭한다.
이러한 불일치는 주로 기계에 의해 발생하며, 때로는 LLM도 만족스러운 응답을 제공하지 못한다.
예를 들어, 대화 에이전트가 처음에는 매운 음식을 못 먹는다고 했으나, 나중에는 매운 음식을 매일 먹는다고 주장하는 모순이 발생할 수 있다.
이러한 모순은 텍스트 이해력을 향상시키기 위한 핵심 요소로, 대화보다는 텍스트 생성, 환각 탐지, 논리적 추론 같은 분야에서 많이 연구되었다.
본 연구의 첫 번째 기여는 대화 내 모순적인 상황을 다루기 위한 새로운 대화 처리 과제를 제안하는 것이다.
이러한 과제는 인간의 의사소통 요구를 충족시킬 수 있는 발화를 생성하는 것을 목표로 한다.
모순이 대화에서 발생할 경우, 의미가 충돌하는 두 개 이상의 발화가 반드시 존재한다.
개선을 위해서는 모순적인 발화를 감지하고 적절히 수정하는 두 가지 노력이 필요하다.
이는 환각 처리에 관한 최근 연구에서 영감을 받아 LLM을 활용하여 대화 내 잠재적 모순을 감지하고 수정하는 방식으로 진행된다.
두 번째 기여로, 본 논문은 ChatGPT3와 Wikipedia를 활용한 자기모순 대화 데이터셋을 개발하였다.
데이터셋은 12,000개 이상의 완전한 ‘인간-기계’ 대화를 포함하며, 그 중 6,000개 이상의 대화는 하나 이상의 모순적인 맥락을 포함한다.
대화 시나리오 및 15개의 일상 대화 주제를 포함하며, 모순이 있는 각 대화는 모순을 위치시키고 그 구체적인 표현을 설명하는 진술을 제공한다.
세 번째 기여로, 주요 대화 모델 외에 모순을 감지하고 설명하는 또 다른 분석기 LM을 통해 Red Teaming 프레임워크를 제안한다.
이 프레임워크는 모델의 모순 인식 및 감지 능력을 향상시키기 위해 원래 LLM을 처음으로 개선한다.
모순의 전반적인 이해를 보장하기 위해 모델은 형식화된 진술을 제공해야 한다.
Red Teaming LM은 대화 내 모순을 감지할 뿐만 아니라 모순을 설명하고 진술에 근거한 수정 요청을 한다.
실험 결과 제안된 Red Teaming 프레임워크가 여러 LLM 시리즈의 대화 모순 감지 정확도와 완전성을 크게 향상시킴을 입증하였다.

2 Task and dataset

대화 모순 해결 작업 정의
- 대화 내에서 모순을 감지하고 해결하는 과제
- 대화의 흐름을 유지하며 일관성을 확보하는 것이 목표
기여한 데이터셋 소개
- 다양한 대화 시나리오를 포함
- 모순이 존재하는 대화와 그에 대한 해법을 제공
- 학습 및 평가 목적을 위한 데이터 구성
데이터셋 구성 요소
- 대화 발화 두 개 \(u_1\), \(u_2\)가 주어졌을 때, 모순성 판단
- 레이블로 ‘모순’ 또는 ‘모순 아님’을 표기
평가 기준
- 정확도: 모델의 모순 감지 및 해결 능력 측정
- 대화 이해 및 자연어 처리 모델 개선을 목표
도메인 적용 가능성
- 고객 서비스, 비서 시스템 등 다양한 응용 분야
- 사용자 경험 향상을 위한 대화 시스템의 필수 요소
데이터셋의 한계점 및 개선 방향
- 실제 대화 상황을 반영한 시나리오 추가 필요
- 다양한 언어와 문화적 맥락 고려

이 내용들을 통해 대화 모순 해결 문제를 더 깊이 이해하고 정확한 모델 개발을 지원할 수 있습니다.

2.1 Task Definition

대화(C)는 \(\{u_0, u_1, \ldots, u_{\vert C \vert}\}\)으로, 여기서 \(u_i\)는 대화의 발화를 나타냄.
목표: 대화에서 모순 해결 과정을 간소화하는 것.
두 개의 하위 작업으로 나뉨: 모순 탐지와 모순 수정.

모순 탐지 (Contradiction Detection)

입력: 대화 C.
출력: y, 대화 C에 자기모순이 있는지 여부를 나타냄.
언어 모델(LM)에 따라, 출력은 이진 레이블 y이며, 대화 C에 모순이 있는지 여부를 나타냄.
y는 “yes” 또는 “no”로 생성된 텍스트 레이블로 표현되며, 이는 각각 모순이 있음/없음을 의미함.

모순 수정 (Contradiction Modification)

모순이 탐지되면, LM은 모순 발화를 수정하여 대화 C에 있는 어떤 두 문장 사이에도 논리적 불일치가 없도록 해야 함.
\(u_i\)가 \(u_{i+k}\)와 모순될 경우, 이는 보통 기계에 의해 생성된 자기모순임.
\(u_i/u_{i+k}\) 또는 둘 다 (\(u_i, u_{i+k}\)) 수정 가능.
두 가지 수정 전략:
1. 직접 수정 (Direct Edit): 모순이 발생한 \(u_i\) 또는 \(u_{i+k}\)를 수정.
2. 공동 수정 (Joint Edit): \(u_i\)와 \(u_{i+k}\)를 동시에 수정하여 모순 해결.

2.2 Dataset

데이터 수집:
- 인간 논리에 반하는 모순을 효과적으로 작성하기 어려움.
- 영화, 음식, 관광, 스포츠 등 일상 대화 주제에 대한 Wikipedia에서 키워드 추출.
- 주제에 따라 키워드를 분류.
모순 대화 생성:
- Wei et al. (2022), Ouyang et al. (2022) 연구를 참고하여 ChatGPT를 사용하여 합성 데이터 생성.
- ChatGPT는 지침과 구체적 예시를 통해 원하는 형식의 데이터를 제공 가능.
- ChatGPT 사용 이유:
  - 데이터 중복 최소화 및 대화 품질 보장.
  - 인간 수준의 모순 탐지 및 설명 성과.
  - 고품질 모순 설명 생성 및 비용 및 편향 감소.
데이터셋 구성:
- 총 12,387개의 대화 포함: 모순 및 비모순 대화.
- 모순 대화 6,130개 수집, 각 대화에 설명 포함.
- 한 대화 평균 단어 수: 46.5 (4문장), 문장 당 평균 11.6단어.
- 설명의 평균 단어 수: 16.7.
- DailyDialog와 Wizard of Wikipedia 주제를 참고하여 15개의 일상 주제 선택.
- 훈련 세트: 모순 4,839개, 비모순 4,820개.
- 테스트 세트: 모순 1,291개, 비모순 1,437개.
퀄리티 평가:
- 생성된 모순 대화 중 200개를 무작위로 선택하여 인간 평점자 두 명이 평가.
- 평가 일치도: 카파 계수 0.76 및 0.72.
주제 분포:
- 다양한 주제를 포함하여 내용 다양성 및 품질 보장을 목표로 함.

\[S(e, e_g) = S_1(e, e_g) + \eta S_2(e, e_g)\]

\(S(e, e_g)\)에서 \(\eta\)는 스케일 팩터, \((0 < \eta < 1)\).

3 Red Teaming Language Models for Contradictory Dialogue

레드팀 프레임워크 학습 단계
- 단계 1: 기본 언어 모델(LM)을 검출 작업 목표에 맞게 미세 조정.
- 단계 2: 미세 조정된 LM(분석기 LM 혹은 aLM)이 대화에서 서로 모순되는 설명을 생성하고 그것을 검증.
- 단계 3: 레드팀 LM(rLM)을 사용하여 대화에서 모순이 있는 부분을 수정.
  - 이전 단계에서 생성된 설명문을 활용하여 논리적 프롬프트 부족을 보완.
과정의 효과
- 대화에서 모순을 식별하고 이해하는 LLM의 능력 향상.
개별 단계의 기술적 세부 사항: 대화 모순 해결을 위한 각 단계의 기술적 세부 사항을 제시.

3.1 Framework Overview

대화 모순 해결 하위 작업을 다루기 위해 프레임워크는 세 가지 단계를 거침.
1. 모순 탐지
2. 모순 설명
3. 대화 수정

3.2 Resolving Dialogue Contradiction

모델 세부사항
- theaLM 모델 파인튜닝: 대화 맥락에 기초한 의미적 레이블 생성.
- 모델의 추론 능력과 파라미터 수 고려 (Kaplan et al., 2020).
데이터 전처리
- 모든 모순 대화는 수동으로 검토 및 레이블링.
- DailyDialog와 Wizard of Wikipedia의 대화는 모순이 없다고 가정 (Nie et al., 2021).
모델 선택
- 7~13억 개 파라미터 모델 선택 (Chung et al., 2022; Touvron et al., 2023b; Chiang et al., 2023; Taori et al., 2023; Jiang et al., 2023).
- 오토리그래시브 LM이 마스킹 LM보다 모순 감지에 유리한 장점.
- 설명 생성이 가능한 오토리그래시브 LM을 통해 문제 맥락 파악.
aLM 구현
- 제로샷 및 퓨샷 방법으로 모델의 모순 감지 능력 평가.
- 탐지 프로세스 프롬프트 \(p\) 구성: 대화 \(C\)와 지시 \(i\).
- 퓨샷 시나리오를 위한 모순 대화들 \((C_m, C_n)\) 추가.
- 대화 \(C\)에서 모순 여부 판단 요청.
훈련 단계
- 주어진 대화 \(C\)에 대해 바닐라 LM을 인스트럭션 튜닝으로 파인튜닝.
- 판단 레이블 \(s: p(s\vert C,i)\) 생성.
- \(s\)는 ‘yes’ 또는 ‘no’로 모순 여부 판단.
- 인스트럭션 \(i\)는 제로샷 테스트와 동일.
- 혼합된 모순 및 비모순 대화 데이터셋 랜덤 튜닝: 주제 분포 효과 방지를 위해.

3.2.1 Contradiction Detection

이진 분류는 모델이 모순점을 이해하는 정도를 반영하지 못함.
aLM을 훈련하여 모순과 관련된 특정 설명 \(e\)를 생성하도록 함.
모순 설명이 활성화되면, aLM은 판단 레이블 \(s\)와 해당 설명 \(e\)를 생성하도록 훈련됨.
설명 \(e\)는 다음 조건을 만족해야 함:
- \(s\)와 의미적으로 일치해야 함 (즉, \(s\)와 \(e\) 사이에 의미적 충돌 없음).
- 대화 \(C\) 내에서 어떤 발화들이 모순적인지 명시해야 함.
- 모순에 대한 구체적인 이유를 포함해야 함.
생성된 설명의 적합성 평가가 중요함.
생성된 설명 \(e\)를 데이터셋의 레이블된 설명 \(e_g\)와 비교하여 평가.
\(S(e,e_g)\)는 다음과 같이 정의됨: \(S(e,e_g) = S_1(e,e_g) + \eta S_2(e,e_g)\)
- 여기서 \(\eta\)는 스케일 팩터이고 \(0 < \eta < 1\).
- \(S_1\)과 \(S_2\)는 생성된 텍스트 \(e\)와 참조 텍스트 \(e_g\) 사이의 의미적 유사성 점수.
- 두 평가 방법의 가중 합을 이용하여 편향을 피함.
\(S(e,e_g) > \tau\)일 경우, LM이 생성한 설명 \(e\)는 대화 \(C\)의 모순점을 설명할 수 있다고 봄.
\(S(e,e_g) \leq \tau\)이면, \(e\)는 대화의 모순을 설명하기에 불충분하다고 간주됨.
\(\tau\)의 값은 인간 평가의 점수 기준에 따라 설정됨.

3.2.2 Contradiction Explanation

모순 감지 후, Red Teaming rLM과 \(S(e, eg) \ge \tau\)을 사용하여 C에서 모순을 수정.
프롬프트 내 지침을 제공.
- 수정 시 \(e\) 사용 여부 및 수정 전략 포함.
§2.1의 Direct Edit:
- \(u_{i+k}\)을 \(u_i\)에 일치하도록 일반 수정.
- 대화 생성을 통해 구문이 일관된 논리를 따름.
Joint Edit:
- 설명을 통해 모순 진술 식별하고 rLM이 모순 부분 조정.
- 논리적 일관성 유지를 위해 모순 진술 사이의 \(c_{i+1,i+k-1} = \{u_{i+1}, u_{i+2}, ..., u_{i+k-1}\}\)을 수정할 필요가 있음.

3.2.3 Dialogue Modification

제안된 Red Teaming 프레임워크를 모순된 대화 처리에서 평가하기 위해 여러 비교 실험을 수행.
LM(언어 모델)이 생성한 설명이 수정 과정에서 도움이 될 수 있음을 발견.
문제 정의상 이를 명시적으로 요구하지는 않음 (§2.1).
11615 데이터셋을 사용하여 실험을 진행.
모순된 대화 탐지 및 설명 평가뿐만 아니라 LM 생성 설명이 최종 작업에 미치는 영향도 평가 (§4.2-§4.4).
생성된 결과를 보여주기 위해 사례 연구도 제공.

4 Experiments

Lora (Hu et al., 2022)를 사용하여 BF16에서 기본 LMs를 미세 조정.
설정:
- \[\text{lora\_r} = 4\]
- \[\text{lora\_alpha} = 8\]
- \[\text{lora\_dropout} = 0.05\]
- 학습률: \(2 \times 10^{-5}\)
7B LM을 네 개의 A10 GPU에서 3 에폭 동안 학습.

4.1 Experiment Details

실험 개요: 대화에서 모순을 탐지하는 여러 베이스라인과 오픈 소스 LLM의 정확도, 리콜, F1 점수를 비교.
모델:
- BERT (Devlin et al., 2019)
- RoBERTa (Liu et al., 2019)
- LLaMA2-7B/13Bchat (Touvron et al., 2023b)
- Vicuna-7B (Chiang et al., 2023)
- Mistral-7B (Jiang et al., 2023)
- LLaMA3-8B-Instruct
평가 기준:
- 기본 LMs는 인간 평가에 따라 구분 기준이 설정 (부록 §A.2에 설명).
결과:
- 표 1에 모순 대화 탐지 결과 제시.
- LLaMA2는 BERT와 RoBERTa 같은 작은 인코더보다 모순 탐지 능력이 부족함을 보임, 심지어 13B 모델 스케일에서도 동일.
- 상대적으로 성능이 좋은 Vicuna와 Mistral도 확신할 만한 결과를 내지 못함.
- 이는 대화 생성을 위한 생성 불안정성과 모순 및 추론 판단 능력 부족 때문.
- 이러한 문제로 인해 대화 자가모순 발생 빈도가 증가.
- 반면, 미세 조정은 LLM을 모순 탐지 작업에 맞춤.
- Vicuna와 LLaMA2의 높은 리콜은 이 모델들이 대화에서 모순을 탐지할 때 더 기울어짐을 시사.
추가 정보:
- 탐지 결과에 대한 추가 정보는 §4.3에서 제공.

4.2 Dialogue Contradiction Detection

모델 분석: 대화에서 모순을 탐지하고 설명하는 모델들의 성능 분석.
선택한 모델: LLaMA2-chat 시리즈 사용.
모형 성능 결과:
- BERT: 정확도 67.4, F1 65.2, 재현율 60.9
- RoBERTa: 정확도 68.3, F1 64.1, 재현율 62.2
- LLaMA2-7B-chat: 정확도 33.6, F1 43.2, 재현율 54.2
- LLaMA2-13B-chat: 정확도 50.6, F1 65.5, 재현율 92.8
파인튜닝된 모델 성능 \(*\):
- Vicuna-7B\(*\): 정확도 96.7, F1 95.8, 재현율 92.6
- Mistral-7B\(*\): 정확도 97.4, F1 96.3, 재현율 94.5
- LLaMA2-7B-chat\(*\): 정확도 95.2, F1 95.3, 재현율 90.9
평가 기준:
- 레이블 일관성: 2 (일치), 1 (일부 관련), 0 (무관)
- 유창성: 2 (읽기 쉬움), 1 (문법적으로 형성됨), 0 (읽기 어려움)
- 완전성: 2 (완전한 설명), 1 (불완전), 0 (실질적 설명 없음)
자동 평가:
- 메트릭: BERTScore, BARTScore 사용.
- \(P_{\alpha}\): 설명의 비율 \(S>\alpha\).
인간 평가:
- 기준: 레이블 일관성, 유창성, 완전성 기준으로 각 모델의 설명 평가.
- 결과:
  - LLaMA2-chat: 모든 평가 지표에서 뛰어난 성능.
  - LLaMA3-Instruct: 유창성에서 낮은 성능, 하지만 레이블 일관성 양호.
결과 해석:
- Vanilla 모델들은 모순 탐지 성능에 비해 설명 성능이 낮음.
- LLaMA2-chat은 Vicuna와 Mistral보다 더 나은 설명 능력.
- 대화 데이터 맞춤이 성능 향상에 기여했을 가능성.
- LLaMA3-8B-Instruct는 반복적이고 관련 없는 텍스트 생성.
- 추가 정보 생성과 대화 맥락 반복이 설명 성능 저하에 기여.
일반적 결론:
- 레이블 일관성이 높을수록 모델의 설명 성능이 개선됨.
- 더 큰 모델이 더 나은 설명 능력 보임.
- LLaMA3-Instruct는 대화 정렬 최적화로 인해 설명 성능이 낮음.

4.3 Contradiction Explanation

기본 내용:
- 모순 수정의 마지막 하위 작업을 평가.
- 미세 조정된 LM을 rLM으로 사용하여 모순된 대화를 수정.
설정 및 평가 방식:
- 설명이 있는 경우와 없는 경우 두 가지 프롬프트 설정 사용.
- 자동 및 인간 방법으로 평가.
- 자동 평가: 수정 전후 모순 대화의 비율 변화를 비교.
결과:
- 모든 rLMs는 주어진 모순 대화를 수정하는 능력 일부를 보여줌.
- 설명이 포함된 프롬프트는 그렇지 않은 경우보다 더 나은 수정 범위를 보여줌.
- 이는 모순 설명의 품질과 대화 내 효과적인 로컬라이제이션을 반영.
세부 모델 성능:
- LLaMA2-chat는 일련의 더 나은 결과를 보임.
- 기본 13B 모델은 미세 조정된 7B 모델과 거의 유사한 성능을 보임.
통계 및 수치 (Tab. 5 참고):
- (설명 없는 경우) 수정되지 않은 모순 비율 49.34%.
- Vicuna-7B의 경우, 설명 포함시 5.21%.
- Mistral-7B의 경우, 설명 포함시 4.25%.
- LLaMA2-7B-chat의 경우, 설명 포함시 3.85%.
추가 정보:
- Mistral-7B 미세 조정 버전을 탐지 모델로 사용.
- 시험 중 프롬프트는 §3.2.3의 수정 전략 포함하지 않음.
- 생성된 모순 설명의 구체적인 내용과 모순 수정 결과는 Appx. §A.5에서 상세히 다룸.

4.4 Contradiction Modification

Red Teaming의 필요성
- 책임 있는 대형 언어 모델(LLM)에 대한 요구가 증가하면서 Red Teaming이 주목받고 있음.
- Red Teaming은 수동 검토를 보완하고, LMs의 부적절한 부분 검출을 자동화하여 오류를 줄이는 데 도움을 줌.
- 예시: LLMs가 악의적인 역할을 수행하도록 하여 모델의 한계를 노출시키는 연구가 있음.
대화에서의 모순 처리
- 이전 연구에서는 성격, 지식, 주제 시나리오 간의 일관성을 개선하는 방법을 탐구하였음.
- 모순 상황을 직접 해결하려는 노력은 드물었음.
- Qin et al. (2021)은 임무 지향 대화 시나리오에 제한된 솔루션을 제안.
- Zheng et al. (2022)는 다양한 모순 유형에 기반한 데이터셋을 개발했으나, 대화의 길이와 주제 다양성은 제한적이었음.
- Nie et al. (2021)은 대화 모순 탐지를 위한 데이터셋과 방법을 제안했으나, 우리 데이터셋은 각 모순 대화에 대한 설명을 포함하고 있음.
제안된 프레임워크
- 이진 모순 탐지에서 확장하여, 탐지된 모순을 설명하고 해결하는 것을 포함함.
- 이진 탐지만으로는 모델이 모순을 이해하는 정도를 충분히 포착할 수 없음.

대화 모순 탐지 연구 분야:
- 과거 연구에서는 대화의 논리적 일관성에 초점.
- 대화 모순 탐지 및 수정은 상대적으로 덜 연구됨.
- 기존의 연구들은 주로 자연어 추론(NLI)을 기반으로 대화 모순을 식별.
자연어 추론(NLI)와 대화 모순:
- NLI는 문장 쌍의 관계를 추론하여 모순 여부를 결정.
- 대표적인 NLI 데이터셋으로 SNLI, MNLI 등을 사용.
- 이러한 데이터셋은 대화보다는 문장 기반으로 설계됨.
대화 데이터셋:
- Dialogue NLI: 대화 맥락 내 모순 탐지를 위한 데이터셋.
- 기존 대화 데이터들은 모순 탐지보다는 이해 및 생성에 중점.
강화 학습 및 모델 훈련:
- 최근 대화 모델은 주로 강화 학습을 통해 일관성 향상.
- 강화 학습은 대화 에이전트의 반응과 환경 상호작용에 효과적.
담화 구조와 의미 분석:
- 의미론적 프레임워크와 담화 구조 분석도 일관성 체크에 중요.
- 의미론적 역량을 바탕으로 한 대화 모순식별이 연구되고 있음.
관련 기술 및 응용:
- Google, Amazon 등의 기술기업은 대화 AI 개발에 투자.
- 인공지능의 윤리적 문제 해결을 위한 데이터셋 구축 및 표준화 필요.

독자 의견

본 논문에서는 대화 시스템이 모순된 발화를 하는 문제에 초점을 두었다.
제안하는 프레임워크는 모순대화를 감지하고 이에대한 설명을 생성하는 aLM과, 모순을 수정하는 rLM을 사용한다.
이러한 모순 수정 프레임워크는 Persona-based Dialogue 등의 분야에서 대화 일관성을 향상하는데에 사용될 수 있을 것이다.

Hanyong Lee

[논문리뷰] Red Teaming Language Models for Processing Contradictory Dialogues (EMNLP 2024)

1 Introduction

2 Task and dataset

2.1 Task Definition

모순 탐지 (Contradiction Detection)

모순 수정 (Contradiction Modification)

2.2 Dataset

3 Red Teaming Language Models for Contradictory Dialogue

3.1 Framework Overview

3.2 Resolving Dialogue Contradiction

3.2.1 Contradiction Detection

3.2.2 Contradiction Explanation

3.2.3 Dialogue Modification

4 Experiments

4.1 Experiment Details

4.2 Dialogue Contradiction Detection

4.3 Contradiction Explanation

4.4 Contradiction Modification

독자 의견

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)

Hanyong Lee

1 Introduction

2 Task and dataset

2.1 Task Definition

모순 탐지 (Contradiction Detection)

모순 수정 (Contradiction Modification)

2.2 Dataset

3 Red Teaming Language Models for Contradictory Dialogue

3.1 Framework Overview

3.2 Resolving Dialogue Contradiction

3.2.1 Contradiction Detection

3.2.2 Contradiction Explanation

3.2.3 Dialogue Modification

4 Experiments

4.1 Experiment Details

4.2 Dialogue Contradiction Detection

4.3 Contradiction Explanation

4.4 Contradiction Modification

5 Related work

독자 의견

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)