[논문리뷰] A Theory of Response Sampling in LLMs- Part Descriptive and Part Prescriptive (ACL 2025)
본 연구는 LLM이 자율 의사결정에서 방대한 행동 공간의 옵션을 샘플링하는 휴리스틱이 인간의 의사결정과 유사하게 Descriptive(통계적 규범)와 Prescriptive(내재된 이상적 규범)로 구성됨을 보여주고, 이러한 규범의 편향이 공중보건·경제 동향 등 다양한 현실 도메인에서 나타난다. 또한 LLM의 개념 프로토타입도 prescriptive norms의 영향을 받아 편향된 의사결정을 초래할 수 있어 윤리적 문제가 제기된다.
1 Introduction
- 의사결정은 선택지의 방대함 때문에 도전적이며, 실제 상황에서는 계산적으로 전수 탐색이 불가능한 경우가 많다. 이로 인해 사람과 동물은 가능성(possibility)과 효용(가치)을 바탕으로 몇 가지 옵션만 샘플링하는 휴리스틱을 사용한다.
- LLM은 일반적으로 ‘시스템-1’ 같은 휴리스틱 의존적 에이전트로 간주되지만, 이들이 출력 샘플링을 어떻게 하는지에 대한 메커니즘은 충분히 탐구되지 않았다. 본 연구는 LLM의 응답 샘플링을 정의하고(Appendix A의 형식적 정의 참조), 인간 의사결정과의 유사성을 systematically 분석한다.
- 샘플링은 개념의 여러 가능성 중에서 확률적으로 출력을 선택하는 과정이다. 연구에서는 샘플링이 Descriptive(서술적) 구성요소와 Prescriptive(규범적) 구성요소에 의해 좌우된다고 본다.
- Descriptive 구성요소는 개념에 대해 통계적으로 얼마나 가능성이 있는지, 옵션의 발생 확률을 반영한다.
- Prescriptive 구성요소는 개념에 대해 무엇이 이상적이거나 바람직한지에 대한 암묵적 표준을 반영한다.
- 이 두 구성요소는 맥락에서 학습될 수 있으며, 이는 컨텍스트 내 학습(Contextual)이나 사전 학습으로 이루어질 수 있다.
- 제시된 이론의 효과를 고립시키기 위한 결정적 실험을 설계하고, 다양한 실제 도메인에서 휴리스틱이 일관되게 나타남을 입증한다.
- 500개 개념을 10개 도메인에 걸쳐 평가하고, 15개 언어모델(LMs)을 포함한 다양한 가족/크기의 모델에서 충분히 통계적으로 유의한 결과를 얻었다.
- 이 연구는 실제 응용에서의 활용 사례를 다루며, 의학 분야에서 LLM을 에이전트로 이용해 환자 회복 시간을 추정하는 사례 연구를 제시한다.
- Figure 1에 시사된 바와 같이, 개념에 대해 샘플링할 때 Descriptive 규범과 Prescriptive 규범이 모두 반영되어 샘플 분포가 실제 분포에서 이상적인 방향으로 이동(α로 표시)하는 경향이 있다.
- 인간의 의사결정은 개념의 프로토타이프성(prototypicality)을 통해 Descriptive와 Prescriptive 요소를 함께 반영한다는 점이 기존 연구에서 제시되며, 이는 샘플링과의 연결 가능성을 시사한다.
- 본 연구의 초기 결과는 LLM의 프로토타입 표현이 Descriptive와 Prescriptive의 두 구성요소를 포함한다는 가설을 뒷받침하며, 샘플링과의 연결을 제시한다.
- 주요 기여는 세 가지로 요약된다:
- 인간과 LLM의 샘플링 메커니즘을 비교하여 Descriptive와 Prescriptive 두 구성요소가 공통적으로 작용한다는 점을 실험적으로 확인하고, 이를 뒷받침하는 독립적 실험 설계와 강건성 검증을 제시한다.
- 10개 도메인의 500개 기존 개념에 대해 평가하며, 15개 언어모델을 대상으로 다양한 계통과 규모에서의 결과가 통계적으로 유의함을 보인다.
- Prescriptive 규범이 LLM의 프로토타입 표현에 체계적으로 반영되어, ‘전형적’ 예시의 판단이 이상화 버전에 편향될 수 있음을 초기 증거로 제시한다.
- 연구의 시사점: LLM의 의사결정 샘플링이 단순한 통계적 규칙뿐 아니라 이상화된 규범을 반영할 수 있어, 자율적 의사결정에 따른 윤리적 문제를 야기할 수 있음을 제시한다.
2 Related Work
-
초기 연구에서 LLM은 진정한 이해 없이도 가능한 패턴을 확률적으로 조합해 일관된 텍스트를 생성한다는 시각(Bender et al., 2021)을 제시함.
-
이후 연구는 LLM이 환경의 내부 구조를 표현할 수 있음을 보여주며, 프로그래밍 언어를 학습한 경우 의미 구조를 이해하는 능력이 나타나 텍스트 처리 및 생성이 의미 있게 가능하다고 시사(Jin and Rinard, 2024).
-
이러한 결과는 커뮤니티가 LLM의 출력 생성 메커니즘을 인지과학 등 관련 분야의 관점에서 탐구하도록 하는 관심을 촉발함.
-
최근 연구는 확률의 개념을 이해하는 LLM 에이전트라도 확률 샘플링에 어려움을 겪으며, 통계을 완전히 표현하지 못하고 기대되는 확률 분포와 일치하는 샘플 생성에 취약하다고 보고(Gu et al., 2025).
-
본 논문은 LLM 샘플의 구성 요소를 설명하는 체계적 프레임워크를 제공하며, 이는 편향의 차이를 설명하는 데 기여할 수 있음(Appendix C에서 더 자세히 다룸).
-
시스템 1으로서의 LLM 이해: 추론은 빠른 시스템 1과 더 신중한 시스템 2의 두 단계로 구성된다고 보는 인식이 일반적(Kahneman, 2011).
-
LLM은 휴리스틱 기반의 비숙고적 출력 생성을 보이는 면에서 시스템 1에 비유되며(Yao et al., 2023), 최근 연구는 시스템 1 과제에서 LLM과 인간의 오류가 겹친다는 점을 보여줌(두 집단이 빠른 의사결정에서 유사한 휴리스틱에 의존).
-
LLM과 인간의 휴리스틱 수렴 및 LLM 샘플링에 대한 이론 탐구: LLM 샘플링의 메커니즘을 명시적으로 연구하기보다 의사결정 과정을 이해하려는 시도가 주류임.
-
선행 연구의 한계: 주로 샘플링을 행동 생성/의사결정과 같은 과제에 활용하고 샘플링 메커니즘을 명시적으로 연구하지 않음(Hazra et al., 2024; Shah et al., 2023; Suri et al., 2024).
-
본 연구의 기여: LLM의 응답 샘플링을 이끄는 휴리스틱을 조사하여 의사결정 과정에 대한 더 깊은 이해를 제공하려 함.
3 Theory of LLM sampling
- 전체 아이디어
- LLM의 샘플링은 두 가지 구성요소에 의해 구동된다는 이론.
- 묘사적 구성요소(descriptive component): 개념의 통계적 노름(데이터 분포의 특성)
- 규범적 구성요소(prescriptive component): 개념의 이상이나 목표에 대한 관념
- 샘플링은 여러 가능한 응답 분포에서 확률적으로 출력을 선택하는 행위로 정의됨.
- 인간의 사고체계와의 대응: 인간은 시스템-1(빠르고 직관적)으로 heuristics를 이용해 후보를 선별하고, 시스템-2(느리고 심층적)에서 deliberation을 수행하는 방식으로 처리한다. LLM에서도 CoT 등 명시적 추론 모델은 시스템-2에 비유되며, 기본적 샘플링은 시스템-1에 비유되는 휴리스틱으로 간주된다.
- 핵심 가정: 인간은 목표지향적 가치 최대화(goal-driven)이 두 구성요소의 기원을 형성하지만, LLM의 자동회귀(auto-regressive) 메커니즘은 반드시 목표지향적이지 않음. 다만 샘플링에 있어 규범적 구성요소가 나타나는 것은 여전히 관찰된 현상임.
- 정리: LLM 샘플링은 개념의 통계적 노름(descriptive)과 개념의 이상(ideal)에 대한 규범적(normative) 인식이 결합되어 작동한다고 본다.
- LLM의 샘플링은 두 가지 구성요소에 의해 구동된다는 이론.
- 3.1 Novel concept(C)와 샘플링에 대한 실험적 프레임
- 목표: 새로운 개념 C를 도입해 confounding 요인을 제거하고 descriptive vs prescriptive 구성요소의 효과를 분리 검증.
- 기본 설정
- Cµ(개념의 통계적 노름)와 Cv(개념의 규범적 노름)을 독립적으로 조정하는 프롬프트를 동일하게 제시.
- 입력 분포는 Cµ의 가우시안 분포에서 N개의 샘플을 생성해 구성; LLM은 이 N개의 샘플에 대응하는 옵션으로 간주.
- A(C): LLM이 보고한 개념 C의 평균 응답.
- Cv 설정: Cv가 높을수록 이상적 방향이 증가하는 방향으로 규범을 형성하는 방식, 또는 CV가 낮은 경우/정의 방향이 없는 제어실험이 있음.
- Descriptive만으로의 가정 점검
- Descriptive norm(입력 샘플의 통계)만 지배적이라면 S(C)의 분포는 입력 분포와 통계적으로 유사해야 함.
- 신뢰도 점검
- 입력 샘플의 평균 A(C)과 실제 보고 평균 A(C) 간의 일치 여부를 평가하기 위해 Mann-Whitney U 검정을 사용.
- p < 0.05면 두 분포 간에 유의한 차이가 있음으로 간주.
- Cv의 방향 변화에 따른 효과
- Cv의 방향을 바꿔주면 S(C)의 평균이 Cv 방향으로 변화하는지 확인.
- 추가적인 확인
- 그레이드 없이 실험을 수행해도 LLM이 입력 분포를 근사할 수 있음을 확인하는 sanity check를 수행.
- 이를 통해 관찰된 샘플링의 방향성 변화가 단지 분포 근사 능력의 부족이 아니라 휴리스틱에 의한 샘플링임을 주장.
- 요약 수식 예시
- Descriptive와 Sampling의 기본 관계를 점검하기 위한 비교
- S(C)와 입력 분포 간의 차이, A(C)와의 차이 등을 통계적으로 평가.
- 3.2 Existing concepts에 대한 확장
- 기존 개념 500개를 대상으로, 사전에 이미 LLM에 내재된 개념의 통계 및 값은 알려져 있지 않음.
- 설정
- Cµ와 Cv의 값은 미리 알려지지 않으며, I(C)로 자가 보고된 이상값을 규범 방향으로 사용.
- 각 개념에 대해 S(C)와 A(C)의 차이를(binomial test)로 평가.
- Binomial 검정
- ntotal 개념 중에서 샘플이 평균보다 이상적인 방향(I(C)) 쪽에 있는 비율이 0.5와 달인지 검정.
- p < 0.05면 규범적 노름이 존재한다고 판단.
- Drift from the statistical norm(통계적 노름에서의 편차)
- α를 정의하여 샘플이 통계적 노름 A(C)에서 규범적 노름 I(C) 방향으로 얼마나 벗어났는지 측정.
- 수식(1): α = (A(C) - S(C)) × sign(A(C) - I(C))
-
ˆα(정규화 척도): ˆα = α / A(C) - I(C) - 여기서 \vert는 절대값 기호를 나타내며, 수식 내 절대값 표기에 대해 \vert를 사용한다.
- degenerate case 주의: A(C) = I(C)일 때는 sign(A(C) - I(C))가 0이 되어 α가 정의되지 않으므로 해당 경우는 제외.
- 인간 연구와의 비교
- 이 실험 설계는 Bear et al. (2020), Phillips et al. (2019), Bear and Knobe (2017) 등의 인간 연구를 모방·확장한 것.
- LLM과 인간 모두에서 휴리스틱은 수렴하지만, 샘플이 prescriptive norm 방향으로 얼마나 벗어나는 정도는 인간과 다를 수 있음.
- 이는 공정성(fairness)과 정합성(alignment) 문제의 흥미로운 연구 방향을 제시.
- Figure 2 요약
- 세 가지 개념에 대해 평균값, 이상값, 샘플값을 LLM이 보고하는 예시를 제시.
- 양의 α는 이상향으로의 편차를 나타냄.
- 핵심 결론 및 시사점
- LLM의 샘플링은 통계적 노름과 규범적 노름 사이의 상호작용으로 설명될 수 있으며, 전체적으로 인간의 휴리스틱에 근접하는 경향이 관측됨.
- 다만 규범적 방향으로의 편향(샘플이 이상향으로 얼마나 가는지) 정도는 인간과 다를 수 있어 공정성 및 정합성 측면의 추가 연구가 필요함.
- 실험 프레임은 인간 연구를 재현하고 확장하는 방식으로 설계되어 LLM과 인간 간의 비교가능성을 제공함.
- 주의 및 기호 관련
- 샘플링 관련 핵심 수식
- \[\alpha = (A(C) - S(C)) \times \operatorname{sign}(A(C) - I(C))\]
- \[\hat{\alpha} = \frac{\alpha}{\vert A(C) - I(C) \vert}\]
- 샘플링 관련 핵심 수식
- 그림 및 추가 참고
- Figure 2: 세 개념에 대한 평균값, 이상값, 샘플값의 관계를 시각화한 예시를 설명.
4 Experiments and Results
- 4.1 Novel concept를 둘러싼 샘플링 실험
- 목적: 제안된 정리를 Section 3.1의 방식처럼 제약된 설정에서 검증
- 개념 설정: 새로운 가상 개념 “glubbing”과, Appendix H.3에 정의된 여러 무작위 가상 개념들로 실험
- Cv와 Cµ 변동: 입력 분포의 통계적 특성과 LLM의 샘플링 간의 차이를 평가하기 위해 Cv(가치 체계)와 Cµ(분포의 평균) 변화
- 프롬프트 구성: Descriptive(설명적) 및 prescriptive(지시적) 성분의 영향만 분리되도록, 나머지 프롬프트는 고정
- 프롬프트 요소
- (a) 시간당 “glubbing”에 대응하는 분포에서의 100개 샘플로 정의된 통계적 규범
- (b) 각 샘플 i에 대한 이상치 등급 Cvi (A+~D- 스케일)
- 두 가지 입력 분포 설정
- Uni-modal: 평균 45, 표준편차 15의 가우시안
- Bi-modal: 모드 35와 65, 표준편차 5
- Cv의 세 가지 매개값 수준: (a) 양의 값을 갖는 긍정형, (b) 음의 값을 갖는 부정형, (c) 중립형(컨트롤)
- 예시 프롬프트: 예시 프롬프트 중 하나는 “Based on this, pick a sample number of glubbing hours”와 함께 100개의 샘플과 등급 열람
- 평가 방식: 입력 분포의 평균 A(C)와 이상치(I(C))에 대해 S(C)로 나온 샘플의 평균이 어떻게 달라지는지 분석
- 주요 결과 요약
- 무대 neutral(중립) 조건에서 S(C) ≈ A(C) ≈ Cµ로 나타나 입력 분포의 통계적 특성이 반영되되, 차이가 유의하지 않음(p = 0.52)
- Cv가 양의 경우 S(C)의 평균이 입력 분포의 평균(A(C))보다 높아지고, Cv가 음의 경우 S(C)의 평균이 더 낮아짐
- 예시: Uni-modal에서 음수 Cv의 평균 S(C) = 36.5, 양수 Cv의 평균 S(C) = 46.7
- 통계적 유의성: 양의 Cv에서 p = .003, 음의 Cv에서 p < .001로 S(C)와 A(C) 간의 차이가 유의
- 로버스트니스(강건성) 평가
- Cµ를 다양하게 변화시켜도 S(C)가 Cv 방향으로 지속적으로 이동하는 경향 확인
- 새로운 가상 시나리오(다른 토큰 및 아이디어)로 반복해도 유사한 결과
- Grade를 전혀 주지 않는 컨트롤에서도 차이가 없음(p = 0.51 ~ 0.52)
- 프롬프트의 변형(H.1)에도 본 관찰이 유지됨
- 프롬프트 디자인의 영향이 독립적임을 확인하기 위해
의 변형과 Debasing 프롬프트를 사용한 추가 검증도 수행
- 스케일링 및 일반성 검증
- Cµ를 45에서 845까지 변화시키고, 상위 8개 Peak Ideal 값과 함께 각 조합을 100회 실행
- Figure 3, Figure 7에 해당하는 패턴 확인: Cv가 긍정일수록 S(C)가 Descriptive 성분에서 Prescriptive 성분으로 점차 이동
- 요약 결론
- 샘플링은 입력 분포의 통계적 특성뿐 아니라 prescriptive Norm의 영향도 받으며, 모델의 크기/능력이 커질수록 이 영향력이 커지는 경향
- RLHF 여부보다 사전 학습(pretraining)에서의 prescriptive 성향이 더 큰 영향을 미치며, inverse scaling 법칙 가능성 제시
- GPT-4 및 다른 모델들에 대해서도 본 결과의 일반성이 나타남(Appendix O 참조)
- 사례로 제시된 의사 역할 케이스
- 의사 역할의 의사 결정 상황에서 회복 기간(주 단위) 예측 시, 샘플이 통계적 표준에 가까운 평균에서 이상치 방향으로 편향되는 경향 확인
- 35개의 증상 배치 중 26번에서 이상치 방향으로 편향, p = 0.003로 통계적으로 유의
- 이상적(ideal) 값이 평균보다 더 작게 제시되는 경향으로, 임상 의사 결정에 미칠 수 있는 위험성과 병상 자원 배분에 대한 시사점 제시
- 부록 참조
- 전체 프롬프트 세트와 상세 실험 설정은 Appendix I, H.3, N, G, O 등에 수록
- 4.2 기존 개념(existing concepts)과의 샘플링 관계 실험
- 설정: 500개 개념(C) across 10개 도메인에 대해 실험
- 각 개념에 대해 모델에 (a) 평균 A(C), (b) 아이딜 I(C) 값을 먼저 산출하고, (c) 샘플 S(C)을 얻기 위한 샘플 프롬프트를 독립 컨텍스트에서 사용
- A(C), I(C), S(C)를 얻기 위한 프롬프트는 인간 연구( Bear et al., 2020) 유형과 유사
- GPT-4에서의 실행 방식
- 각 개념당 Prompts 10회 실행, 온도 0.8
- 프롬프트 실패는 10개Concept에서 발생, 나머지 46개 Concept에서 A(C)와 I(C) 값이 동일
- 결과(통계)
- 444개 개념 중 304개 샘플이 이상향(ideal) 쪽으로 편향, 5.06×10^−15의 매우 높은 통계적 유의성
- 제안 이론에 대한 강한 증거 제시
- 모델 간 차이 및 경향성
- 모델 크기가 커질수록 prescriptive norm의 영향 증가(대체로 RLHF가 강화하는 경향)
- 요약 표(예: Table 2)에서 각 모델의 Significance와 샘플의 이상향 비율 제시
- Llama-2-7b base만이 예외적으로 유의성이 작거나 거의 없고, 그 외 대부분의 모델에서 prescriptive 영향이 나타남
- RLHF 여부에 따른 차이: RLHF가 prescriptive 효과를 강화하는 경향, 사전학습(pretraining)에서의 효과가 더 근본적으로 기인하는 것으로 보임
- 모델 규모와 역상향(inverse scaling) 경향
- 모델의 크기/능력이 커질수록 prescriptive 구성의 영향이 커지는 역상향 현상을 관측
- 의학적 사례 연구(case study)
- 의사 역할의 회복 기간 예측에서 prescriptive 편향이 통계적 표준에서 벗어나 이상향으로 자주 이동하는 현상 보임
- 35개의 증상 배치 중 26회가 이상향으로 편향, 임상 의사결정에 대한 위험함 강조
- Appendix N에 전체 증상 목록과 사용된 프롬프트 제공
- 요약 및 시사점
- 제안된 이론은 두 가지 차원에서 실험적으로 유의미한 증거를 제공
- 4.1: 새로운 개념에 대한 샘플링이 descriptive와 prescriptive 성분에 따라 다르게 나타나며, prescriptive 성향은 모델 크기와 튜닝 방식에 비례해 강화되는 경향
- 4.2: 기존 개념에 대한 샘플링에서도 prescriptive 성향이 관찰되며, 개념 수가 많고 모델이 클수록 그 영향이 더 강하게 나타남
- 실무적 함의
- LLMS의 의사결정, 임상 활용, 정책적 의사결정 등에 prescriptive 편향이 영향을 미칠 수 있어, 설계 시 편향 예방 및 인지적 편향 관리의 필요성 제기
- 추가 정보 및 재현성
- Appendix I, H.1–H.3, N, G, O 등에서 각 실험의 프롬프트 세부사항, 데이터, 모델별 수치, 그래프 등을 제공
- 제안된 이론은 두 가지 차원에서 실험적으로 유의미한 증거를 제공
- 수식 예시
- 중립 조건에서의 관계를 간단히 표현하면 다음과 같이 나타날 수 있음:
- \[S(C) \approx A(C) \approx C_\mu\]
- 위 표현은 입력 분포의 통계적 특성과 샘플링 결과가 서로 근사적으로 일치함을 의미
- 본 요약은 원문에 제시된 통계적 수치(p 값)와 비교를 간략히 요약한 것이며, 자세한 수치 및 그래프는 원문 표/그림 및 Appendix에 수록
- 중립 조건에서의 관계를 간단히 표현하면 다음과 같이 나타날 수 있음:
참고: 본 섹션의 주요 실험 설정, 프롬프트 예시, 각 모델별 결과 및 부록에 포함된 추가 자료의 상세 내용은 원문 Appendix I, G, H, N, O 및 Bear et al. (2020) 등 참조를 확인하시길 권합니다.
5 Prescriptive component in concept prototypes
- 연구 배경 및 설계
- 8개의 개념, 각 개념마다 6개의 exemplar를 사용
- exemplars은 해당 개념의 아이템에 대한 짧은 기술
- 예: ‘High-school teacher’의 첫 exemplar는 “A 30-year-old woman who basically knows the material she is teaching but is relatively uninspiring, boring to listen to, and not particularly fond of her job”
- Bear and Knobe(2017) 프로토타입 프로토콜과 유사하게, LLM은 각 exemplar를 세 가지 차원으로 평가
- 평가 차원 및 프로토타입 점수
- 세 가지 차원: 평균(Average), 이상(Ideal), 프로토타입성(Prototypicality)
- 프로토타입성 점수는 세 요소(“좋은 예시”, “전형적 예시”, “프로토타입 예시”)의 평균으로 산출
- 평가 척도: 7점 척도(0 = 전혀 평균/이상/좋은 예시 아님, 7 = 완전한 평균/이상/좋은 예시)
- 실행 방법 및 신뢰도
- GPT-4를 10회 실행, 온도 0.8
- 세 차원의 점수를 결합해 하나의 종합 프로토타입성 등급으로 사용
- 내부 일관성: Cronbach’s alpha = 0.96
- 결과의 요약
- 각 concept의 전체적 프로토타입성 점수는 표 3에 제시(개념별 평균 across exemplars)
- 프로토타입성의 합계가 단순 평균이 아니라 이상적 구성 요소를 포함함을 보여줌
- 46개 개념 중 39개가 평균의 이상(ideal) 쪽에 위치, binomial p < 0.001로 유의
- 모델별 세부 결과
- Llama-3-7b: p = 0.003
- Mixtral-8x7B: p = 0.05
- GPT-3.5-turbo: p < 0.001
- Claude: p < 0.001
- Mistral: p = 0.0019
- 이는 프로토타입에 대한 prescriptive norms의 영향 가능성을 시사
- 전체 데이터 및 재현성
- 모든 exemplar에 대한 전체 결과는 Appendix Q에 30,098건 제공
- 이 연구는 초기 탐색으로, 프로토타입에 대한 개념은 통계적 평균뿐 아니라 prescriptive norms의 영향도 받는다는 것을 시사
- 해석 및 함의
- LLM의 전형적/프로토타입 예시 판단은 이상적 표현으로의 편향 가능성이 있으며, 이를 추적해 추가 연구 필요
- 프로토타입에 대한 판단이 단순한 통계적 평균을 넘어 규범적(normative) 요소를 반영한다는 점이 관찰됨
6 Comparison with human studies
-
이 섹션의 핵심 실험은 Bear et al., 2020의 인간 연구에서 영감을 받았으며, 부록 D에서 인간 대상 연구 결과를 제시한다. 또한 Appendix J의 인간과 유사한 프롬프트를 사용해 LLM에서 동일한 설정을 재현하고, 직접 비교를 용이하게 하기 위해 유사한 시각화로 결과를 제시한다.
-
새롭게 제시된 허구 개념에 대해 규범(prescriptive)과 기술(descriptive) 통계가 주어지면, 인간과 LLM은 이 규범을 포착해 샘플링 옵션에 반영한다는 결과를 보인다.
-
손익(gains and losses)에 대한 비대칭 처리 역시 인간과 LLM 모두 관찰되며, 음의 가치 시나리오의 undersampling이 양의 가치 시나리오의 oversampling보다 더 크게 나타나며, 잠재적으로 공유된 낙관 편향(optimism bias)을 시사한다. 이 비대칭성은 두 시스템이 음수를 피하는 경향이 양수를 추구하는 경향보다 더 강하다는 것을 시사하며, 향후 연구에서 탐구될 수 있다.
-
실험 3.2에 대한 정확한 설정을 Appendix E에서 인간과 LLM의 결과를 비교하기 위해 동일하게 생성하며, 인간 연구에서 사용된 40개 개념을 동일하게 사용해 비교한다. 이 비교는 인간의 인지 과정과 LLM 샘플링 간의 규범적 영향이 일관되게 작동함을 보여준다.
- 이상(promises) 처리에서의 차이가 나타난다. 인간은 이상을 통계치의 완만한 개선으로 개념화하는 경향이 강한 반면, LLM은 절대적이고 더 엄격한 이상으로 기본값을 설정하는 경향이 자주 나타나며(예: 설탕 음료의 이상은 0, 다른 개념의 경우 18 등), 이는 도덕적 절대주의(moral absolutism)로 해석될 수 있어 향후 연구의 주제가 된다.
- 예시로 인간의 이상은 “주당 설탕 음료 수” = \(2.41\) 이고 평균은 \(9.17\)인 경우가 있다.
- 섹션 5의 프로토타입 연구는 인간 연구와 동일한 프롬프트를 사용하였으며, 따라서 이 연구를 위해 인간 프롬프트를 명시적으로 재현할 필요가 없다. 이는 LLM의 프로토타입 성향 점수(prototypicality scoring)가 인간과 동일한 구성요소에 의해 좌우된다는 초기 근거를 제시한다.
- 프로토타입성에 대한 LLM과 인간 간의 산포도에서, 프로토타입성 6(오른쪽)의 ˆα( prescriptive 구성 요소의 샘플링 영향 진폭) 간의 상관은 인간과의 관계를 보인다. 피어슨 상관계수는 \(r = 0.33\)으로 보고된다.
- 여기서 \(\hat{\alpha}\)는 각 시스템의 규범적 영향력을 나타내는 추정계수이다.
- 마지막으로, 본 연구의 실험들은 LLM 출력에서 시스템적 패턴과 함께 편향 및 의사결정 성향을 인간 행태 연구와 유사하게 관찰하게 한다. 다만 이러한 패턴이 인간과 유사한 추론 메커니즘에서 비롯되었다고 전제하지 않는다.
7 Conclusion
- 본 연구의 목적은 LLM의 가능성 샘플링 과정을 이끌어내는 휴리스틱을 더 잘 이해하는 것임.
- 제시된 이론은 샘플링 휴리스틱이 부분적으로 기술적(descriptive)이고 부분적으로 규범적(prescriptive)이라고 설명하나, 정확한 규범적 요소가 인간과 항상 일치하지 않을 수 있음.
- LLM이 실제 세계 응용에 점점 더 통합됨에 따라 의사결정 휴리스틱을 이해하는 것이 점차 중요해짐.
- 결과는 통계적으로 가능성이 높은 결과와 이상성(norms of ideality) 간의 균형을 평가하는 기초 프레임워크를 제공하며, 이는 근본적인 평가 프레임워크로 기능함.
- 결과적으로 기본적으로 탐구되는 표현의 기저에 대해 흥미로운 질문들을 제기함.
- 최종 발언으로서, AI/ML/LLMs를 인간화하려는 의도나 그 방식에 대한 기여가 아니라, 행동의 유사성에 대한 평가를 통해 다운스트림 작업에 영향을 미칠 수 있음을 시사함.
Limitations
- LLM 출력에 영향을 주는 규범의 기원이 아직 충분히 연구되지 않음. 이 규범이 사전 학습 데이터, RLHF(강화학습 사람 피드백으로의 학습), 혹은 모델 학습의 다른 측면에서 기인하는지 구분하는 추가 분석이 필요함.
- 규범의 기원 분리를 통해 훈련 데이터 대 파인튜닝 기법의 기여를 명확히 밝히고, prescriptive 경향성을 이해하여 이를 제어하는 전략 수립에 기여해야 함.
- 규범이 휴리스틱에 미치는 기전을 구체적으로 다루지 못함. 규범과 휴리스틱 간의 연결 고리와 작동 메커니즘을 밝힐 필요가 있음.
- 프로토타이핑성 평가를 LLM과 인간 피험자 간 비교 방식으로 수행했으나, 신경망 측면에서는 표현(representations)을 통해 보다 면밀히 연구할 수 있음.
- 프로토타입 분석이 초기 탐색에 불과하다고 명시되었으나, 프로토타입에 내재된 규범의 기전적 분석과 개념 표현에서의 규범 조정/제어 가능성에 대한 추가 연구가 필요함.
- 향후 연구 방향은 규범의 기원 규명, 규범이 휴리스틱에 미치는 메커니즘 분석, 프로토타입 기반 표현 연구의 심화, 그리고 규범의 조정·제어 가능성을 탐색하는 것이 필요하다고 요약할 수 있음.
Ethics and Risks
- LLM의 샘플링 휴리스틱은 의사결정에 영향을 미치는 처방적 편향(prescriptive bias)을 드러낸다.
- 이러한 편향은 출력이 특정 규범적 기대와 일치하도록 만들 수 있지만, 그 정합성에 대한 보장은 없어서 윤리적 우려를 낳는다.
- 특히 의료 및 정책 결정과 같은 맥락에서 공정성과 투명성은 매우 중요한데, 편향으로 인해 불공정한 결과가 초래될 수 있다.
- 편향을 이해하고 완화하는 것은 의도치 않은 피해를 방지하고 LLM의 책임 있는 배포를 보장하기 위해 필수적이다.
- 처방적 규범은 가치의 렌즈를 통해 바라볼 때 성별, 인구통계 등 다른 편향의 기저로 작용할 수 있는 근본적 편향으로 작용할 수 있다.
- LLM의 샘플링 옵션은 개념/도메인에 따라 서로 다른 편향으로 나타날 수 있으며, 이는 ideals에 대한 보장이 없음을 시사한다.
- 이로 인해 실제 세계의 규범이나 다양한 관점을 반영하지 않는 출력이 생성될 위험이 있어 중요한 윤리적 우려를 제기한다.
- 처방적 규범의 영향에 대응하는 것은 투명하고 신뢰할 수 있으며 공정한 AI 기술을 개발하기 위해 필수적이며, 다양한 사회적 응용에서 긍정적이고 윤리적으로 기여할 수 있도록 한다.
- 따라서 편향의 이해 및 완화를 위한 연구 및 거버넌스, 평가 메트릭스 개발 등이 필요하며, 이는 AI의 책임 있는 활용과 공공 이익에 부합하는 방향으로 나아가야 한다.
Comments