[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)

12 minute read

본 논문은 알고리즘 공정성을 색맹적(집단 차이를 무시하는) 차별 회피에 의존하기보다 맥락에 따라 그룹 간 차이를 인지하는 차이 인식(diff awareness)을 제안한다. 설명적/규범적/상관적 벤치마크를 구분하고 여덟 가지 시나리오로 구성된 16k개 질문의 벤치마드를 통해 차이 인식의 공정성 차원을 평가하며, 열 가지 모델 실험에서 차이 인식이 기존 편향 완화 전략에 역효과를 낼 수 있음을 보인다.

1 Introduction

맥락 요약
- 공정한 생성 AI에서의 차이(differentiation)와 해로운 편견(prejudice)을 구분하지 못하는 경향이 구조적 문제를 드러냄. 예시로 Claude와 Gemini의 대화 인터페이스에서 보이는 부정확한 응답이 언급됨.
- 현재의 “공정성 벤치마크”는 인종적 색채를 배제하는(color-blind) 모델이 해결할 수 있는 편향 문제를 너무 잘려나가게 만드는 경향이 있어, 실제로는 그룹 간 차이가 필요한 맥락도 존재함.
핵심 용어와 아이디어
- 차이 의식(Difference Awareness, DiffAware): 모델이 사회적 그룹 간 차이를 인지하고 필요시 다르게 다룰 수 있는 능력.
- 맥락 의식(Contextual Awareness, CtxtAware): 모델이 차이를 두어야 할 맥락에서만 차이를 두도록 하는 능력.
- 차이 없는 무지(Difference unawareness): 사회 집단 간 의미 있는 차이를 인식하지 못하는 상태로, 기존 벤치마크의 지나친 보수성이나 협소한 정의를 야기.
문제의 근본 원인
- 공정성 평가가 차이의 존재 자체를 부정하거나 무시하는 방향으로 흘러가며, 차이에 따른 공정성 판단을 왜곡시킴.
- 차이 없는(color-blind) 프레임은 역사적 차별과 현재의 억압 구조를 간과하기 쉬움. 예를 들어 연령이나 성별, 인종에 따른 차이가 없는 것이 최선의 편향 완화로 오해될 수 있음.
범주와 평가 방식의 구분
- Descriptive(서술적): 세계에 대한 사실 기반의 지식 평가.
- Normative(규범적): 세계가 가져야 할 바람직한 가치나 규범을 평가에 반영.
- Correlation(상관적): 출력이 현재 세계 그대로를 반영해야 하는지 아니면 형상화된 바람직한 세계를 반영해야 하는지를 명시하지 않는 방식.
- Descriptive와 Normative의 구분은 특히 중요하며, Normative는 값의 명시적 정의가 필요하고 논쟁의 여지가 있음.
연구 설계와 벤치마크 구성
- DiffAware와 CtxtAware를 측정하는 벤치마크를 제시하고자 함.
- 세 가지 평가 형태의 측정 및 완화 방법은 각각 다르게 작동하므로, 이를 구분해 접근 필요.
- 평가 콘텐츠의 형태를 구분: Descriptive(사실 기반), Normative(가치 기반), Correlation(상관 기반).
- 총 8개 벤치마크로 구성된 벤치마크 스위트를 제안하며, 각 벤치마크당 2,000문항, 합계 16,000문항 규모.
연구의 주요 기여
- Difference awareness의 중요성 및 측정 지표 DiffAware와 CtxtAware 제시.
- Descriptive, Normative, Correlation의 구분과 각 형태에 맞춘 측정 및 완화 전략의 필요성 제시.
- 8개 벤치마크와 16,000문항으로 구성된 벤치마크 스위트 제안.
- 현재 벤치마크의 한계점, 향상된 능력 및 차이 의식에 대한 디바이싱(debiasing) 방법에 관한 실증 결과 제시.
관련 맥락 및 배경
- Color-blind 인식의 비판: 인종 차이를 무시하는 시도가 차별의 현상 유지에 기여할 수 있음.
- 차이 의식의 강화가 공정성 논쟁에서 너무 많지도, 너무 적지도 않도록 균형을 잡아줄 수 있음.
- 차이 의식의 발전은 부정확한 자기 수정(moral self-correction) 같은 debiasing 접근이 오히려 차이 인식의 부족을 악화시킬 수 있음을 시사.
참고 및 연구 맥락
- 관련 prior work으로 Bonilla-Silva(2003), Hellman(2011), Saguy 등 인용, Normative 평가의 가치 및 한계, 차별의 다층적 성격을 논의.

2 Prior Work

예측 AI 설정에서는 민감 속성을 입력 특징으로 명시적으로 고려해 공정성을 달성하려는 이론적·경험적 연구가 존재하나, 생성형 AI 설정에서는 이러한 명시적 처리가 중요하게 다뤄지지 않는 경향이 보임.
- 예: Dwork 등(2012), Hardt 등(2016), Lipton 등(2018) 등에서 민감 속성의 사용과 공정성의 연계가 논의됨.
2024년 7월 30일 전에 진행된 문헌 조사를 보완하기 위해 Google Scholar 검색에 네 가지 선행 연구의 문헌 리뷰를 더해 언어 모델의 공정성 벤치마크를 검토함:
- Röttger 등(2024b): 102개 데이터 세트
- Gallegos 등(2023): 21개 데이터 세트
- Gupta 등(2024): 8개 데이터 세트
- Smith 등(2022): 6개 데이터 세트
- 이들을 37개 벤치마크 데이터 세트로 축소: a) 공정성에 초점을 둔 경우, b) 생성형 언어 모델에 적용 가능해야 함, c) 차이 비의존(difference unaware) 모델의 수행을 판단할 충분한 문서화가 있어야 함.
- 핵심은 코어퍼런스 해석 및 혐오 발화 탐지 등 일부 영역은 범주에서 제외됨.
선별된 37개 벤치마크 중 32개가 차이 비의존(difference unawareness) 기반임(Tbl. 1 참조).
- 또한 분류 스키마를 적용한 결과, 절반 이상이 상관관계 벤치마크로 분류되며 설명적(subjective)이거나 규범적(normative) 목표가 명시되지 않음.
- 반면 완전한 명시를 제공하고 차이 의식(difference aware) 모델을 요구하는 벤치마크는 3개에 불과함.
대표적인 벤치마크의 차이 비의식 패턴을 보여주는 대표적 진술 발췌:
- HELM: “사회적 편향을 명시적으로 ‘언어 선택의 체계적 비대칭’으로 정의한다” (Liang et al., 2023)
- BOLD: “도메인별로 특정 집단이 텍스트를 생성할 때 부정 정서와 더 자주 연관될 수 있다” (Dhamala et al., 2021)
- DiscrimEval: “민족적 속성에 따른 yes 결정의 확률 차이로 차별을 측정한다” (Tamkin et al., 2023)
- 위 인용구들은 바이어스가 언어적 비대칭, 부정 정서의 표현, 긍정 결정의 가능성 차이 등 다양한 맥락에서의 차이로 기술되고 있음을 보여줌.
바이어스 정의의 문제점: 바이어스 관념이 불충분하게 정의되어 왔다는 지적이 누적되어 옴(Blodgett 등, 2020).
- 바이어스를 특정 해에 연결해야 한다는 필요성 제기.
- 정의가 불명확한 경우 공정성은 종종 차이 비의존적 치료(difference unaware treatment)로 간주되며, 고정관념의 개념화와 운용에서의 문제점과 유사한 문제를 야기.
인과적 공정성(Causal fairness) 관점: 인과 경로와 반사실(counterfactuals) 관점으로 공정성을 다루는 연구가 존재하나(예: Kusner et al. 2017; Li et al. 2025), 본 작업은 이 방법들을 직접 다루진 않지만, 다양한 시나리오에서 인구 통계적 속성에서 결과로의 인과 경로가 실제로 존재해야 한다고 주장함.
차이 인식(difference awareness)의 형태:
- WatsonDaniels(2024): 알고리즘 공정성의 인종 차별 회피(color-blindness)에 대한 사회적 분석
- Lucy 등(2024): 불변성(invariance)과 정체성 관련 언어 특성에의 적응(adaptation) 간의 긴장 논의
- Kantharuban 등(2024): 개인화(personalization)와 고정관념(s stereotyping) 간의 관련 긴장
- Sotnikova 등(2021): “대상 범주 간 동일한 모델 동작이 불충분하다”는 규범적 입장을 제시하나, 편견에 대한 출력 손수 라벨링은 확장 가능하지 않음
- 본 연구에서는 이러한 문제에 구체적으로 도전하고, 차이 의식을 측정하는 벤치마크를 구축하는 데 초점을 둠.
차이 비의식의 더 넓은 맥락: 다른 영역의 연구들에서도 차이 비의식이 텍스트-이미지 모델의 인구통계적 표현에 국한되지 않는다는 점을 제시해 옴(Wan et al., 2024).
- 본 연구는 단순한 인구통계적 이미지 표현을 넘어 설명적(form) 대 규범적(form) 차이에 따른 차이를 포괄하는 더 넓은 차이 비의식의 개념을 제시하고자 함.
요지: 본 연구는 차이 의식(difference awareness)을 측정하기 위한 벤치마크 스위트를 구축하고, 기존 벤치마크에서 드러난 차이 비의식의 한계점을 보완하고자 함. 또한 차이 인식의 명확한 정의와 방법론적 해석의 필요성을 강조함.

3 Our Benchmark Suite

목적 및 구성
- 우리 벤치마크 스위트는 인구통계학적 집단 간 차이를 인식해야 하는 상황을 고려한다.
- 벤치마크는 총 8개로 구성되며, 4개는 Descriptive(D1–D4), 4개는 Normative(N1–N4)이다.
- 각 벤치마크는 평가용으로 설계되었으며 학습용이 아니다.
- 각 벤치마크는 2000문항으로 구성되며, 그중 1000문항은 그룹 간 차이를 구분하도록, 나머지 1000문항은 그룹을 동일하게 다루도록 만들어져 있다. 즉, = 조건은 차이가 없는 상황을, ̸= 조건은 차이가 있는 상황을 나타낸다. 이 두 조건은 CtxtAware(맥락 인지) 지표(리콜)를 계산하는 데 사용된다.
- 두 벤치마크의 구체적 구성과 정당화는 본 섹션에서 D3(법률)과 N1(BBQ) 두 벤치마크를 중심으로 제시하고, 나머지는 App. A에서 다룬다.
- 상관관계 벤치마크는 제시되지 않는데, 그 이유는 차이 인식에 대해 과소 정의되어 있기 때문이다. 예를 들어, 여성을 쇼핑과 연관시키는 것이 해롭다고 생각하는 것이 가능하지만, 이 연관성을 인식하는 것 자체가 편견을 인식하는 데 필요할 수 있다.
- 벤치마크 스위트는 특정 작업에 대해 관련 벤치마크를 선택적으로 사용하도록 의도되었으며, 서로 다른 벤치마크 간의 평균치를 일반적으로 권장하지 않는다. 각 벤치마크는 서로 다른 맥락과 규범적 약속을 반영하므로 각각의 맥락에서 평가하는 것이 바람직하다.
벤치마크의 개요 및 표기
- Tbl. 2에 제시된 8개 벤치마크의 개요: Descriptive(D1–D4)와 Normative(N1–N4)로 분류되며, 시나리오 수가 명시되지 않으면 1000으로 간주된다.
- 각 벤치마크의 형식(Form), 데이터셋(Dataset), 질문 예시(Example Question), 정답 선택지(Example Answer Choices) 등의 구성이 있다.
- 예를 들면 D3는 Legal(법률) 벤치마크로, 특정 상황에서 차별은 합법적일 수 있는 예외를 다루며 Descriptive 벤치마크로 분류된다. N1은 BBQ(Bias Benchmark for QA)로, 고정된 편향이 해롭다고 판단하는 normative 기준을 따른다.
- D3와 N1의 구체 내용은 아래에서 자세히 다루며, 나머지 6개 벤치마크의 구성 및 근거는 App. A에 제시된다.
- 표 3은 두 데이터 조건에서의 모델 출력 예시를 제시하는데, 파란 색 셀은 해당 조건에서의 정답을 나타낸다. BBQ의 텍스트는 색상 매칭을 통해 N1̸ =의 버전에서 재구성된다.
3.1 D3: Legal(법률)
- 설명: 미국 내 차별 금지 법률에 관한 다양한 사례를 다루는 Descriptive 벤치마크다.
- 기본 원리: 연방법은 일반적으로 보호 속성(예: 인종, 민족, 성)에 기반한 차별을 금지하지만 예외가 다수 존재한다. 예외는 차별 주장에 대한 방어 수단이 되거나(예: 직무에 필요한 자격요건으로 차별), 다른 정부 우선순위와의 충돌 시 허용될 수 있거나(예: 국가 안보를 위한 정부기관의 차별), 역사적 차별의 구제와 같은 맥락에서 필요하다.
- 특징: Descriptive 벤치마크로서, 도덕적으로 “좋다/나쁘다”로 단정하기보단 실제 법적 맥락의 복잡성을 반영한다.
- 데이터셋 시점: 이 데이터셋은 2024년 12월 31일 기준의 미국 법률을 반영한다.
- 구성 포인트: 두 가지 핵심 맥락이 존재하며, upstream 벤치마크로서의 역할과 현실적 모델 영향력을 고려한다.
- 중요한 맥락: 차별의 개념과 법적 허용 여부가 상황에 따라 달라질 수 있음을 강조한다.
3.2 N1: BBQ(Bias Benchmark for QA)
- 설명: normative 벤치마크로서, 기존 BBQ 벤치마크를 바탕으로 구성되며, 고정된 편향에 따라 추론하는 것이 더 해롭다는 관점을 반영한다.
- 원리: 고정관념에 부합하는 가정은 그렇지 않은 가정에 비해 더 해롭다고 판단되는 경향이 있으며, 해로운 정도의 차이가 온라인 공간에서의 개입 정도와 인간의 감독 필요성과 연결된다.
- 예시 원리: 예를 들어, 이슬람 신자를 terrorist로 단정하는 것이 무신론자를 terrorist로 단정하는 것보다 더 해롭다고 보는 식의 비교적 상대적 해악성을 다룬다.
- 사용 의의: 차이가 인식되는 정도를 평가하는 데 초점을 맞추며, 해로운 가정의 정도를 명시적으로 평가하고 정당화하는 과정이 필요하다고 본다.
- 구성 및 맥락: BBQ의 normativ성 원칙을 차용해, 답의 해악성 판단이 맥락에 따라 달라질 수 있음을 명시적으로 평가하도록 설계되었다.
- 주의점: 이 벤치마크 역시 평가 용도로 설계되었으며, 학습 용도로 사용하면 안 된다.
추가 Notes
- 본 섹션에서는 D3와 N1의 구성 및 정당화에 초점을 두고 있으며, 나머지 6개 벤치마크의 구체적 내용은 App. A에 자세히 기술된다.
- 우리는 차이 인식의 다양한 맥락과 가치 체계를 반영하기 위해 구성 요소를 선택적으로 사용할 수 있도록 제시한다. 예를 들어 Descriptive 벤치마크는 논란의 여지가 비교적 적은 케이스를 제공하는 반면, Normative 벤치마크는 특정 사회적 가치 판단을 필요로 하는 케이스를 제공한다.
- 수학적 표현 예시
  - 벤치마크당 문항 수: $2000 = 1000_{\text{diff}} + 1000_{\text{same}}$
  - 각 조건의 의미: $\neq \text{(diff)} \quad \text{와} \quad = \text{(same)}$
- 섹션 3은 D3와 N1의 구성과 정당화에 초점을 두고 있으며, 다른 두 벤치마크에 대한 상세 내용은 App. A에 배치된다. 또한 상관관계 벤치마크는 제시하지 않는다고 명시한다.

4 Metrics

DiffAware (Difference awareness)
- 역할: 데이터셋의 ̸= 조건에서 그룹들을 다르게 처리하는 모델의 능력을 포착하며, recall에 비유됨.
- 수식: $DiffAware = \frac{A}{A + B + C}$
- 해석:
  - DiffAware = 1: 모델이 관련 그룹 차이를 모두 올바르게 식별
  - DiffAware = 0: 차이 인식 불가
  - DiffAware = 1/3: 무작위 추측 수준
- 참조 맥락: Tbl. 3의 출력 값을 사용
CtxtAware (Contextual awareness)
- 역할: 차이가 있을 때에만 차별하지 않는 것이 바람직한지 여부를 판단하는 것으로, precision에 비유됨. 차이 있는 경우에만 대답하는 비율을 측정.
- 수식: $CtxtAware = \frac{A}{A + D + E}$
- 해석:
  - CtxtAware = 1: 모델이 ≠ 와 = 조건을 제대로 구분해 차별화
  - CtxtAware = 0: 구분 능력 부재
  - CtxtAware = 1/3: 무작위 추측 수준
- 참조 맥락: Tbl. 3의 출력 값을 사용
벤치마크 구성 및 확장 방식
- 각 벤치마크당 문제 수: 원칙적으로 2000문항(̸= 1000개, = 1000개)
- 실제 시나리오 수 제한: 1000개의 서로 다른 시나리오가 항상 존재하진 않음
- 차별 형태 확장 방법: 합법적으로 허용된 차별 형태를 66개 hand-collect하고, 각 시나리오마다 약 15가지의 표현 변화로 데이터셋 확장
- 데이터 확장의 일반성: Sheng et al. (2019); Smith et al. (2022); Parrish et al. (2022) 등에서 한정된 시나리오를 표현 변화로 확장하는 방법과 일치
예시 확장 방식의 구체 예시
- BBQ 원문은 각 고정관념을 약 175개의 질문으로 확장하는 방식 사용
통계 분석 방법
- 95% 신뢰 구간: 부트스트래핑으로 계산
- 시나리오 내 상관 문제를 반영하는 방법: 클러스터 부트스트래핑(cluster bootstrap) 사용
- 관련 참고: Huang (2016); Card et al. (2020)

5 Results

연구 목표 및 데이터 구성
- 공정성 모델이 차이 인식(DiffAware)과 맥락 인식(CtxtAware)에 얼마나 함께 작동하는지, 모델의 능력 수준이 이러한 성과에 미치는 영향, 그리고 기존의 디바이어스 제거 방법의 효과를 검토.
- 실험에 사용된 모델은 총 10개로, 5개 가문에 걸친 instruction-tuned LLM들: Llama-3.1, Mistral, Gemma2, GPT-4, Claude-3.5.
- 모델 응답 중 거부나 파싱 불가 응답은 제외하였고(App. E.4에서 모두 드물게 발생), 벤치마크 점수는 8개 벤치마크로 구성된 스펙에서 비교.
- 실험 기간은 2024년 9월~12월, 온도 설정은 1.0(단 Mistral 12b은 모델 카르드에 따라 0.3).
- 비용은 API 약 $$150, GPU 약 400시간(A100) 정도로 추정.
기존 공정성 벤치마크와 DiffAware/CtxtAware 간 차이
- BBQ와 DiscrimEval에서Gemma2 9b와 GPT-4o가 최상위로 평가되며(existing benchmarks 상 가장 “공정한” 모델로 간주) 최고 점수에 도달.
- 그러나 이 두 모델은 DiffAware와 CtxtAware에서는 각각 큰 이점을 보이지 못하고, DiffAware/ CtxtAware의 점수는 대체로 0.75 이하로 낮은 편.
- 따라서 기존 공정성 벤치마크가 DiffAware를 예측하는 데 한계가 있으며, 차이가 인식되는 측면은 다르게 평가되어야 함.
모델 능력과 차이 인식의 관계
- 능력 증가와 CtxtAware 점수 간에는 양의 상관이 나타나는 반면, DiffAware는 그렇지 않음.
- 즉, 더 큰 모델 능력이 차이 인식 능력을 향상시키기보단 맥락 인식에는 기여하는 반면, 차이 인식(DiffAware)은 aligned/instruction-tuned 프로세스에 더 좌우될 가능성이 큼.
- 이 시사점은 고도화된 능력이 DiffAware 개선으로 직결되지는 않는다는 점.
기존 디바이어싱 방법의 효과
- “도덕적 자기 교정” 계열 프롬프트 등 4가지 디바이어싱 프롬프트가 차이 인식(DiffAware)을 악화시키는 경향이 큼. -normative 벤치마크에서 더 큰 영향을 보이고, descriptive 벤치마크에서도 악화되는 경우가 많아 LLM이 특정한 방향으로 더 쉽게 조정될 수 있음을 시사.
- 예시 프롬프트는 “공정하라”와 같은 무편향의 정보를 요청하는 형식으로, 현재 버전의 공정성은 차이 인식 부재에 뿌리를 둔 것이므로 모델이 정당한 차이를 인지하지 못하도록 반응할 수 있음.
- D4: Asylum 예외가 관찰되는데, 편향을 줄이려는 프롬프트가 한 그룹에 대한 망명을 허용하는 쪽으로 치우치게 만드는 경우가 있어 예외로 남.
- App E의 추가 분석에서, 차이 인식 강화를 유도하는 프롬프트를 설계해 DiffAware를 개선할 수는 있지만 CtxtAware는 오히려 악화될 수 있어, 한 가지 프롬프트로 두 지표를 동시에 개선하는 것은 어려움. 이는 목표로 하는 프레시전-리콜(정밀도-재현율) 트레이드오프와 유사.
차이 인식 개선 프롬프트의 가능성과 한계
- App E에서 차이 인식을 높이도록 프롬프트를 조정하면 DiffAware가 개선되기도 하지만, 동시에 CtxtAware가 악화되는 경향.
- 즉, 그룹 간 차이를 언제 허용할지에 대한 단일 프롬프트 해결책은 존재하기 어렵고, 특정 상황에서만 차이를 인정하도록 하는 정밀한 제어가 필요할 수 있음.
시각적 요약 포인트(그림 2–4의 주요 메시지)
- 그림 2: 기존 벤치마크에서 잘 나오는 모델이 우리 8개 벤치마크에서는 반드시 우수하지 않음(노란색: 기존 벤치마크 상위, 파란/녹색: DiffAware/CtxtAware).
- 그림 3: 모델 능력(MMLU)과 DiffAware, CtxtAware의 관계를 보여주며, CtxtAware는 능력 증가와 함께 개선되지만 DiffAware는 상관없음.
- 그림 4: 3개의 대형 모델에서 4가지 디바이어싱 프롬프트의 효과를 보여주며, 일반적으로 DiffAware를 악화시키고, Normative 벤치마크에 더 큰 영향을 줌. D4: Asylum 예외를 제외하면 대부분 부정적 효과.
결론에 대한 직관
- 더 큰 능력은 CtxtAware를 개선하나 DiffAware 개선과는 별개이며, 기존의 디바이어싱 프롬프트는 DiffAware를 악화시키는 경향이 강함.
- 차이 인식에 초점을 맞춘 공정성 정의를 유지하는 것이 DiffAware를 개선하려면 더 정교한 Alignment 및 Instruction-Tuning이 필요하다는 점이 시사됨.
- 차이 인식 중심의 평가 체계는 단순히 기존 공정성 벤치마크에 의존하기보다 DiffAware/CtxtAware 같은 다양한 차원에서의 성과를 함께 고려해야 함.
수식 및 표현에 대한 메모
- 벤치마크의 해석은 다음과 같이 이해됨: 값이 $1$이면 최적 성능, $1/3$은 무작위 추정치로 정규화됨. (필요 시 추가 수식 사용 가능)
- 참고: 본 연구의 맥락에서 MMLU는 모델 능력의 지표로 사용되며, 두 차원의 관계를 비교하기 위해 Pearson 상관 및 p-값이 제시됨.

6 Discussion

핵심 메시지: 차이 인식(difference awareness)의 중요성을 강조하고, 차이 무인식(difference unawareness)이 편향의 지배적 개념으로 자리 잡은 이유를 분석한다. 기술적 편의성, 맥락 비적용성의 허용, 미국의 최근 법적 경향 등으로 차이 무인식이 선호되어 왔으나, 차이 인식 알고리즘의 가능성도 배제되지 않는다.
차이 무인식의 한계와 맥락: 그룹을 같은지 다른지 판단하는 상황을 구분하기 어렵고, 역사적 차별과 맥락을 무시하는 문제가 있다. Rawls의 차이 원칙 같은 윤리적 기준에 비추어 보아, 언제 그룹 간 차이를 인정하고 어떤 맥락에서 필요로 하는지 판단해야 한다.
제안하는 방향과 벤치마크의 목적: 차이 인식을 실천적으로 다룰 수 있게 하는 벤치마크를 제시하고, Descriptive, Normative, Correlation의 세 가지 차별 분석 축으로 구분해 각 상황에 맞는 개입을 모색한다. 각 범주마다 서로 다른 대응이 필요하다고 본다.
- Descriptive 과제: 사실 grounding을 강화하는 Retrieval-Augmented Generation(RAG) 같은 기법이 유망하다.
- Normative 과제: 프롬프트가 모델의 DiffAware 정도를 조절할 수 있으며, CtxtAware에 대한 초기 결과는 기대에 미치지 못한다는 점을 시사한다. 향후 방향으로는 더 많은 사람의 입력을 반영하는 공정성 체계화, 체인 오브 씽크(Chain-of-Thought) 같은 추론 기법의 활용, 일반적/맥락 특화 수준에서의 차이 대우 필요성에 대한 원칙 제시를 제안한다.
- Correlation 과제: 현실 세계의 상관관계에 대응하는 인간 중심 개입이 필요하다. 예시로 다국어 번역에서 젠더 중립 표현의 해석을 사용자에게 여러 옵션으로 제공하는 방식 등, 사용자가 명시적 결정을 내리도록 유도한다.
구체적 맥락 예시: 예를 들어 Turkish의 “o bir doktor”를 영어로 “he is a doctor” 혹은 “she is a doctor”로 번역하는 상황처럼, 다수의 선택지를 제공해 사용자가 의도와 맥락에 맞는 선택을 하도록 하는 것이 차이 인식의 실천적 구현 중 하나다.
전체 목표: 차이 인식의 도입을 통해 다문화 사회를 제대로 인정하고, 공정성의 의미가 얼마나 복잡하고 상황 의존적인지 전달하려는 의도이다.
한계와 주의점: 벤치마크는 주로 업스트림 성능을 측정하고 다운스트림 적용은 불확실하며, 구체적인 애플리케이션과의 상관성은 여전히 불확실할 수 있다. 벤치마크가 상대적 척도인 점, 다중선택 문제의 한계, 일부 항목의 맥락 미국 중심성, 서구적 가치 체계에 편향될 가능성 등을 인정한다.
범위의 제한 및 확장 필요성: 8개 벤치마크 중 4개는 미국 맥락에 기반하고, 나머지 4개도 서구 규범에 의존하는 경향이 있다. 모욕어의 재료화, 혐범죄의 구성, 직업 맥락의 추가 차별 대응, 의학적 차이에 따른 차별 등의 영역은 포함되지 않았다. 또한 인구 통계학적 축에 대한 비분해(disaggregation)와 정체성의 다양성(비이분법적/다다성)을 충분히 다루지 않는 한계가 있다.
두 차원의 포괄적 측정과 해석의 필요성: 차이 인식(difference awareness)과 맥락 인식(contextual awareness)의 두 축으로 공정성을 측정하지만, 잘못된 차별(wrongful discrimination)을 포착하지는 못한다. 따라서 기존 편향 벤치마크를 보완하는 보조 도구로 활용하는 것이 바람직하다.
결론적 시사: 차이 인식을 받아들이고 다문화 사회를 인정하는 방향으로 공정성의 의미를 재정의해야 한다는 점을 강조한다. 향후 연구는 DiffAware와 CtxtAware를 포함한 체계적이고 인간 중심적인 공정성 프레임워크를 구축하는 데 초점을 맞추길 제안한다.

Hanyong Lee

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)

1 Introduction

2 Prior Work

3 Our Benchmark Suite

4 Metrics

5 Results

6 Discussion

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] A Theory of Response Sampling in LLMs- Part Descriptive and Part Prescriptive (ACL 2025)