[논문리뷰] Can large language models explore in-context? (NeurIPS 2024)

13 minute read

현존하는 대형 언어 모델들은 별도의 학습 없이 기본 성능만으로는 강화학습의 핵심인 탐험 능력을 잘 수행하지 못하며, 효과적인 탐험을 위해서는 외부 요약 등 비단순한 알고리즘적 개입이 필요함을 보였다.

1 Introduction

인컨텍스트 러닝(in-context learning)은 파라미터 업데이트 없이 LLM 프롬프트 내에서 문제 설명과 관련 데이터를 제시하여 미리 학습된 LLM을 문제 해결에 활용하는 중요한 능력이다 (Brown et al., 2020).
예를 들어, 숫자 공변량 벡터와 스칼라 타깃을 프롬프트로 주면, LLM이 새로운 공변량 벡터를 포함한 프롬프트를 통해 회귀 예측을 할 수 있다 (Garg et al., 2022).
LLM은 이 행동을 명시적으로 학습받은 것이 아니며, 훈련 데이터에서 해당 알고리즘이 추출되어 대규모에서 자연스럽게 나타난다.
인컨텍스트 러닝은 GPT-3 모델에서 처음 발견된 이후 (Brown et al., 2020), 이론적 연구(Xie et al., 2021; Akyürek et al., 2022), 실험적 연구(Garg et al., 2022; Kirsch et al., 2022), 응용 연구(Xu et al., 2022; Som et al., 2023; Edwards et al., 2023)로 활발히 진행되고 있다.
기존 연구는 주로 행위 예측, 즉 감독 학습(supervised learning)에 집중해 왔다. 감독 학습은 중요하지만 많은 응용에서는 후속 의사 결정에 ML 모델을 활용해야 하므로, 인컨텍스트 강화 학습(ICRL)과 순차적 의사 결정을 연구하는 것이 자연스러운 다음 단계이다.
이미 LLM은 자연과학 실험 설계(Lee et al., 2023b), 게임 플레이(Shinn et al., 2023; Wang et al., 2023) 등에서 의사 결정 에이전트로 활용되고 있지만, ICRL에 대한 이론적·운용적 이해는 ICSL보다 현저히 부족하다.
의사 결정 에이전트가 갖추어야 할 핵심 능력은 일반화, 탐색(exploration), 계획(planning)이며, 본 논문은 탐색, 즉 불확실성을 줄이고 대안을 평가하기 위한 정보 수집 능력에 초점을 맞춘다.
최근 연구(Laskin et al., 2022; Lee et al., 2023a; Raparthy et al., 2023)는 트랜스포머 모델이 강화학습 데이터나 전문가 시연 데이터를 활용한 명시적 학습을 통해 인컨텍스트 탐색 행동을 보인다는 사실을 보여주지만, 이 과정은 비용이 크고 특정 작업에 의존적이며 일반 목적 LLM의 자발적 탐색 능력에 대해 알려진 바가 없다.
본 논문에서는 다음 질문을 제기한다: 현대 LLM이 인컨텍스트 탐색 능력을 자연스럽게 갖추고 있는가?

주요 기여

본 연구는 LLM을 간단한 합성 강화학습 문제인 다중 무장 밴딧(MAB) 환경에 에이전트로 투입하여, 환경 설명과 상호작용 기록을 모두 프롬프트 내에 명시하는 방식으로 인컨텍스트 탐색 행동을 분석했다.
MAB 문제는 탐색과 착취의 균형 문제를 고립시켜 연구할 수 있으며, 일반 순차 의사 결정 학습의 기본 단위이다.
Gpt-3.5, Gpt-4, Llama2를 대상으로 다양한 프롬프트 설계에 대해 평가한 결과, 단 한 가지 구성(Gpt-4 + 향상된 프롬프트)이 만족할 만한 탐색 행동을 보였다.
대부분 구성에서 탐색 실패가 발생했으며, 주된 실패 양상은 “접미사 실패(suffix failure)”로, 일정 시점 이후 최적 arm을 단 한 번도 선택하지 않는 현상이 나타났다. 예를 들어, Gpt-4와 기본 프롬프트 조합에서 >60%의 실험군에서 접미사 실패가 관측되었다.
또 다른 실패 양상은 “균등 선택 행동”으로, 모든 arm을 거의 동일하게 선택하여 좋은 arm로 좁히지 못하는 경우였다.
성공한 구성은 (a) 탐색을 유도하는 힌트 제공, (b) 상호작용 내역을 arm별 평균으로 외부 요약, (c) 제로샷 추론(zero-shot chain-of-thought reasoning)을 요구하는 프롬프트를 포함했고, 이는 Figure 1(b)에 시각화되어 있다.
이 결과는 최신 LLM이 적절한 프롬프트 설계를 통해 견고한 탐색 능력을 가질 수 있음을 시사한다.
그러나 외부 요약이 없는 동일 구성은 실패했는데, 이는 외부 요약이 어려운 복잡한 환경에서는 LLM이 탐색에 실패할 위험이 있음을 의미한다.
결론적으로, 현재 세대 LLM은 단순 RL 환경에서 적절한 프롬프트 엔지니어링이 있으면 탐색이 가능하나, 보다 복잡한 환경에서는 Lee et al. (2023a), Raparthy et al. (2023)과 같은 훈련 개입이 필요할 수 있다.

방법론적 도전과 기여

LLM 성능 평가의 기술적 어려움은 프롬프트 설계의 조합적 탐색, 통계적 유의미성 확보, 비용 및 계산 제약을 동시에 고려해야 한다는 점이다.
인컨텍스트 밴딧 학습은 (a) 환경 내 확률성으로 충분한 복제를 요구하고, (b) 탐색·학습의 표본 복잡성으로 인해 수백~수천 번의 쿼리가 필요해 평가가 더 어렵다.
이에 본 연구는 장기 탐색 실패를 진단할 수 있는 대리 통계량(surrogate statistics)을 제안하는데, 이는 적은 복제 수와 짧은 학습 기간 내에도 효과적으로 측정 가능하다.
이 대리 통계량들은 전통적 성과 지표인 보상(reward)은 너무 노이즈가 많아 유용하지 않을 때 특히 효과적이다.

2 Experimental setup

Multi-armed bandits (MAB) 문제 정의
- K개의 행동(arms)이 존재하며, 인덱스는 \([K] := \{1, \ldots, K\}\)로 표기
- 각 arm \(a\)는 평균 보상 \(\mu_a \in [0, 1]\)를 가지며 이는 미지수
- 에이전트는 \(T\) 타임스텝 동안 환경과 상호작용하며, 각 시점 \(t \in [T]\)에 arm \(a_t \in [K]\)을 선택
- 보상 \(r_t \in \{0, 1\}\)는 평균이 \(\mu_{a_t}\)인 베르누이 분포에서 독립적으로 추출
- MAB 문제는 평균 보상들 \((\mu_a : a \in [K])\)와 시간 한계 \(T\)에 의해 결정
- 목표는 총 보상을 최대화하는 것, 최선 arm (평균 보상이 가장 높은 arm)을 찾는 것과 유사
- 선택하지 않은 arm 보상은 공개되지 않아 탐색이 필수
MAB 인스턴스 세부 설정
- 최선 arm의 평균 보상은 \(\mu^\star = 0.5 + \frac{\Delta}{2}\), 다른 arm들은 \(\mu = 0.5 - \frac{\Delta}{2}\)로 설정 (\(\Delta > 0\))
- \(\Delta = \mu^\star - \mu\)는 최선 arm과 두 번째 arm 간의 차이
- 주요 인스턴스: \(K=5\), \(\Delta=0.2\) (hard instance)
- 추가로 \(K=4\), \(\Delta=0.5\) (easy instance) 고려
Prompt 설계
- LLM을 decision-making agent로 활용, MAB 문제 설명(타임호라이즌 \(T\) 포함)과 상호작용 히스토리를 프롬프트로 제공
- 프롬프트 구성의 독립적 선택 요소 5가지:
  1. 시나리오(scenario)
    - a) 버튼 누르기 agent
    - b) 광고 추천 엔진
  2. 프레이밍(framing)
    - a) 탐색과 활용 균형 강조 (suggestive)
    - b) 중립적 (neutral)
  3. 히스토리 표현
    - a) 원시 형태(raw list)
    - b) 요약 정보(재생 횟수, 각 arm의 평균 보상)
  4. 최종 응답 유형
    - a) 단일 arm 선택
    - b) arm들에 대한 분포 반환
  5. Chain-of-Thought (CoT)
    - a) 응답만 요청
    - b) CoT 설명 허용
총 \(2^5 = 32\)가지 프롬프트 조합 가능
기본 프롬프트는 버튼 시나리오, 중립 프레이밍, 원시 히스토리, 단일 arm 응답, CoT 없음
CoT는 zero-shot 상황에서 도움이 됨을 확인 (참고: Wei et al., 2022; Kojima et al., 2022)
LLM 구성 및 파라미터
- 사용 모델: GPT-3.5, GPT-4, Llama2 (특정 버전 명시)
- 온도(temperature) 파라미터: 0(결정적), 1(랜덤성 부여)
- LLM 구성 식별: 5글자 코드 \(L_1 L_2 L_3 L_4 L_5\)
  - \(L_1\): ‘B’ (버튼 시나리오), ‘A’ (광고 시나리오)
  - \(L_2\): ‘N’ (중립 프레이밍), ‘S’ (탐색과 활용 강조)
  - \(L_3\): ‘R’ (원시 히스토리), ‘S’ (요약 히스토리)
  - \(L_4\): ‘C’ (CoT), ‘eC’ (강화 CoT), ‘N’ (CoT 없음)
  - \(L_5\): ‘0’ (온도 0), ‘1’ (온도 1), ‘D’ (분포 반환, 온도 0)
- 예) “BNRN0”는 기본 구성
베이스라인 알고리즘
- Upper Confidence Bound (UCB)
- Thompson Sampling (TS)
- Greedy (탐색 안 하는 알고리즘, 초기화 후 최선 arm에 안 갈 확률 존재)
- 추가로 \(\epsilon\)-Greedy (확률 \(\epsilon\)로 탐색, 그렇지 않으면 Greedy)
- 파라미터 조정 없이 기본 설정으로 실행
실험 규모 및 반복
- 시간 한계 \(T=100\) 주로 사용
- 각 LLM 구성 및 MAB 인스턴스 당 \(N = \{10, 20\}\) 반복 실험
- GPT-4는 비용과 속도 문제로 대표적 10개 프롬프트 구성에만 \(N=10\) 반복 실시
- GPT-3.5는 48개 프롬프트 구성 각각 \(N=20\)으로 약 20만 쿼리 수행
- Llama2는 하드 인스턴스, 32개 구성, \(N=10\) 반복 제한
- 추가적으로 GPT-4는 \(T=200\), 최대 \(N=40\) 반복으로 안정성 점검 실시
주의점
- LLM 기반 MAB 실험은 비용과 시간이 많이 들며, 충분한 \(N\)과 \(T\)가 필요
- 탐색 실패와 같은 현상을 더 잘 감지하기 위해 누적 보상뿐 아닌 대체 지표 활용
- 프롬프트 디자인의 다양성이 결과에 미치는 영향도 고려하여 광범위한 실험 진행
핵심 수식
- 최선 arm 평균 보상: \(\mu^\star = 0.5 + \frac{\Delta}{2}\)
- 나머지 arm 평균 보상: \(\mu = 0.5 - \frac{\Delta}{2}\)
- 갭: \(\Delta = \mu^\star - \mu\)

3 Experimental results

본 섹션에서는 실험 결과를 제시함.
- 3.1절: 실험 개요
- 3.2절: 실패한 LLM 구성 분석
- 3.3절: 성공한 단일 LLM 구성 집중 분석
- 3.4절: 탐색 실패 원인 진단 시도

3.1 개요

대부분의 LLM 구성에서 탐색 실패가 발생하며, 최적 arm을 선택하지 못하고 수렴하지 않음.
실패 유형은 크게 두 가지:
- Suffix failure: 소수 초기 라운드 이후 최적 arm을 전혀 선택하지 않는 경우
- Uniform-like failure: 모든 arm을 균일하게 선택해 나쁜 arm을 제거하지 못하는 경우 (소수 구성에서 관찰)
예외는 Gpt-4의 BSS eC0 구성 (버튼 시나리오, 제안적 프레이밍, 요약된 히스토리, 강화된 CoT, 온도 0) 뿐임.
Figure 3: 각 LLM 구성을 두 가지 실패 지표 SuffFailFreq와 MinFrac 축으로 표현한 산점도
- \(\text{SuffFailFreq}\) : suffix failure 정도
- \(K \cdot \text{MinFrac}\) : uniform-like failure 정도
Figure 4: Gpt-4 구성별 요약 통계, BSS eC0만 성공적으로 탐색하여 최적 arm에 수렴함.

3.2 실패 사례 분석

Gpt-4 중심 분석 (Gpt-3.5와 Llama2는 대체로 성능 저조, 자세한 내용 Appendix B 참고)
Suffix failure:
- 대부분 구성에서 두 집단으로 나뉜 bimodal 행동 관찰: 일부 복제에서 최적 arm을 거의 안 뽑고, 나머지에서 빠르게 수렴.
- Suffix failure 빈도 \(\text{SuffFailFreq}(t) := \text{평균}(\text{best arm을 } [t, T] \text{에서 한 번도 선택하지 않은 경우})\)
- 산점도 X축으로 \(\text{SuffFailFreq}(T/2)\) 표기; 5개 구성 제외하고는 15% 이상 발생.
- Figure 1(top), Figure 5 등에서 자세한 bimodal 및 suffix failure 시각화.
- suffix failure는 장기적인 탐색 실패로 이어져 T가 큰 경우 보상 저하를 초래.
Uniform-like failure:
- 3개의 Gpt-4 구성은 suffix failure를 피하지만, 2개는 균일하게 arm을 선택하며 정보 활용 실패.
- 분포 \(fa(t,R)\): 복제 \(R\)에서 시간 \([1,t]\) 동안 arm \(a\)가 선택된 비율
- \[\text{MinFrac}(t,R) := \min_a fa(t,R), \quad \text{MinFrac}(t) := \text{평균}(\text{MinFrac}(t,R) \text{ across replicates})\]
- \(K \cdot \text{MinFrac}(t)\) 를 Y축으로 표현, 1에 가까울수록 균등 분포에 가까움.
- Figure 6: BNRND, BNSND 구성에서 \(K \cdot \text{MinFrac}(t)\)가 감소하지 않고 유지되어 uniform-like failure 확인.
- 이는 suffix failure는 없지만 장기 보상 감소를 초래.
실패 현상은 하드 MAB 문제 및 버튼 시나리오뿐 아니라 다른 실험 설정에서도 확인됨 (부록 B참조).
요약 지표:
- \(\text{SuffFailFreq}(T/2), \quad \text{MinFrac}(T), \quad \text{MedianReward}, \quad \text{GreedyFrac}\) (Greedy와의 행위 유사도)
Gpt-4가 Gpt-3.5 및 Llama2보다 우수하며, LLM 구성은 소폭 프롬프트 변경에도 민감하나 성능 향상을 단독적으로 평가하기 어려움.

3.3 성공 사례 조사

하드 MAB 문제에서 유일하게 실패 두 가지 유형 모두를 피하는 구성은 Gpt-4의 BSS eC0 임.
Figure 4에서 확인 가능하며, 성공 구성이 suffix failure 0, \(K \cdot \text{MinFrac}\) 값도 TS와 유사, 보상도 TS급임.
T=200, N=40 복제 실험에서 BSS eC0는 suffix failure 없이 보상이 양호.
BSR eC0 구성 (raw 히스토리 사용)과 대조 시, BSR eC0는 suffix failure 빈도가 증가함.
Figure 7: BSR eC0 vs BSS eC0 요약 통계 비교
Figure 8: 각 구성별 시간 단계별 선택된 arm 시각화
- BNRN0: 특정 arm에 몰입하는 경향, Greedy와 유사
- BSR eC0: 몰입은 덜하지만 여전히 지속됨
- BSS eC0: arm 전환이 잦으며 Thompson Sampling과 유사한 행동
Figure 9: 최적 arm 선택 비율 곡선
- BSR eC0는 UCB 유사, 일부는 suffix failures로 0에 수렴
- BSS eC0는 TS와 유사하게 거의 모든 복제가 1에 서서히 수렴
이로써 BSS eC0가 TS와 유사한 행동을 하며 충분히 긴 시간에서는 최적 arm로 수렴할 것임을 시사.

3.4 실패 원인 탐색

실패 원인 가설:
1. LLM 구성이 과도하게 Greedy 함
2. 혹은 균등 선택 (uniform-like) 경향이 강함
Gpt-4 Easy / Hard 인스턴스에서 행동 차이 관찰됨 (Figure 13 참고).
Easy 인스턴스에서는 대부분 LLM 구성이 suffix failure 없이 Greedy와 비슷하게 행동하며 좋은 성과.
Hard 인스턴스에서는 대부분 LLM이 Greedy도 아니고 uniform도 아닌 복잡한 행동을 보임.
보조실험 (단일 라운드 t에서 arm 선택) 수행:
- 데이터 출처(Data source): 균등 무작위(Unif), UCB, TS 기반 히스토리
- 통계: GreedyFrac (현재까지 가장 좋은 arm 선택 비율), LeastFrac (가장 적게 선택된 arm 선택 비율)
Figure 10: Gpt-3.5 구성 및 베이스라인의 라운드별 선택 통계 요약
실험 결과, 선택 성향은 데이터 출처에 크게 좌우되어 “LLM이 과도하게 Greedy인지 혹은 균등한지” 판단 어려움.
일부 LLM(예: BNSN0)은 너무 Greedy한 경향, BSRN0는 너무 균등한 경향 나타내나, 다수 구성은 베이스라인과 유사 범위 내에 있음.
따라서, 장기적 실험에서는 LLM과 베이스라인 간 탐색 실패 유형과 성능 차이가 크지만, 단일 라운드 결정 기반 평가로는 실패 원인 규명에 한계가 있음.

본 논문은 LLMs(대형 언어 모델)의 능력을 이해하고자 하는 최근 연구 흐름에 속함.
- LLMs의 전반적 지능(Bubeck et al., 2023), 인과 추론(Kıcıman et al., 2023), 수학적 추론(Cobbe et al., 2021), 계획 수립(Valmeekam et al., 2023), 조합성(Yu et al., 2023) 등 다양한 능력 연구가 있으나 본 논문 주제와는 다소 거리가 있음.
본 연구는 주로 in-context learning(문맥 내 학습) 능력에 초점을 맞춤.
- 관련 연구들은 이론적(Xie et al., 2021; Zhang et al., 2023a 등) 및 실험적(Garg et al., 2022; Kirsch et al., 2022 등) 접근법으로 수행되었음.
- 대부분은 in-context supervised learning에 집중했으며, in-context reinforcement learning(RL)은 상대적으로 적은 관심을 받음.
in-context reinforcement learning 관련 연구
- Laskin et al. (2022), Lee et al. (2023a), Raparthy et al. (2023) 등은 RL 알고리즘이나 전문가의 궤적 데이터를 사용해 처음부터 훈련한 모델을 대상으로 함.
- 이론적으로 Lee et al. (2023a), Lin et al. (2023) 등은 베이지안 메타강화학습 관점에서 기존 transformer가 Thompson sampling, upper confidence bounds (UCB) 같은 탐험 전략을 수행할 수 있음을 증명함.
- 그러나 이들은 LLM 사전학습 단계 개입이 필요하고, 기존 LLM이 표준 훈련 조건에서 탐험 능력을 지니는지는 다루지 않음.
본 논문과 가장 유사한 연구는 Coda-Forno et al. (2023)
- Gpt-3.5 기반 2-armed bandit 과제에서 in-context learning 성능을 평가.
- Greedy(최대 수익 arms 선택)와 유사하거나 약간 낮은 성능을 보였으나, UCB와 같은 복잡한 알고리즘과 비교할 충분한 시간 범위를 고려하지 않음.
LLM을 실제 의사결정 문제에 적용하는 연구도 급증 중
- 게임, 프로그래밍, 의료 분야에 대한 연구(Shinn et al., 2023; Wang et al., 2023 등).
- Park et al. (2023)은 오픈 월드 환경에서 인간 행동을 시뮬레이션하는 생성 에이전트를 개발.
- Ahn et al. (2022), Xu et al. (2023)은 LLM을 탑재한 로봇 개발.
동시 수행된 관련 연구
- Wu et al. (2024): 쉬운 bandit 문제(2 arms, gap \(\Delta = 0.6\))에서 GPT-4가 빠르게 최적 arm 선택, 인간과 비교, 단일 프롬프트 사용. 본 논문의 어려운 MAB 문제와 실험 결과는 차이가 있으나 쉬운 문제에서는 유사한 성공을 보임.
- Park et al. (2024): 주로 적대적 환경과 짧은 시간 범위 (\(T=25\) bandit) 연구, 중요도 가중 손실(importance-weighted losses) 적용.
  - 뒤이어 발표된 업데이트판에서는 긴 시간 범위 \(T=100\) 에서도 LLM 성능 평가, 중요도 가중 처리 유무가 탐험 행동에 큰 영향(중요도 가중 시 성공, 제거 시 실패 증가).
  - 이와 같은 결과는 본 논문에서 제시한 이력 사전처리(요약 또는 중요도 가중)가 LLM의 탐험적 행동을 끌어내는 데 중요하다는 결론과 일치함.
그 밖에 Schubert et al., Hayes et al., Coda-Forno et al. 등의 연구는 LLM이 결정과정에서 인간과 유사한 편향을 보이는지 탐구.
최근 LLM 기반 강화학습 기법 리뷰: Cao et al. (2024).
후속 연구
- Monea et al. (2024), Nie et al. (2024)는 본 논문 결과를 확장하며 contextual bandits 및 vanilla MAB을 대상으로 LLM이 탐험에 실패함을 확인.
- 두 연구 모두 LLM 탐험 능력 향상을 위한 중재책을 제안:
  - Monea et al.: interaction history를 균등하게 subsample하는 training-free 개입.
  - Nie et al.: few-shot prompting 및 최적 시범 이용한 파인튜닝 포함.
- 제안된 중재책이 성능 개선을 주지만, 여전히 전통적 알고리즘과 경쟁하기에는 부족함.

4.1 Further background on multi-armed bandits

멀티 암 밴딧 문제와 본 논문에서 사용된 기본 알고리즘들에 대한 추가 배경 설명.
자세한 내용은 Bubeck and Cesa-Bianchi (2012), Slivkins (2019), Lattimore and Szepesvári (2020) 참고.
UCB 알고리즘 (Upper Confidence Bound, Auer et al., 2002a)
- 각 암 \(a\)에 대해 인덱스 계산:
  \(\text{index}_a = \text{평균 보상}_a + \sqrt{\frac{C}{n_a}}\)
  여기서 \(C = \Theta(\log T)\)이고, \(n_a\)는 해당 암을 지금까지 선택한 횟수.
- 각 라운드에서 가장 큰 인덱스를 갖는 암 선택.
- 보너스 항은 “불확실성 하에서의 낙관주의” 원칙을 구현함.
- 본 논문에서는 경험적으로 좋은 성능을 보이는 휴리스틱 \(C = 1\)로 설정한 UCB 버전을 사용.
Thompson Sampling
- 베이지안 prior에서 암들의 평균 보상들이 초기 추출된 것으로 가정하고 시작.
- 매 라운드마다 지금까지의 히스토리를 바탕으로 posterior 계산 후, posterior에서 샘플링.
- 이 샘플을 실제 평균 보상으로 가정하고 가장 큰 평균 보상을 가진 암 선택.
- 본 설정에서 prior는 알고리즘의 파라미터이며, 각 암의 평균 보상을 \([0, 1]\) 구간에서 독립적이고 균일분포로 샘플링하는 표준 prior 사용.
- 각 암은 Beta-Bernoulli 공액 사전분포로 독립적으로 업데이트됨.
- 이 알고리즘은 근사 최적 후회(regret) 경계 및 좋은 실험적 성능을 가짐 (Kaufmann et al., 2012; Agrawal and Goyal, 2012, 2017).
알고리즘 성능 및 후회(Regret)
- 후회는 최적 암의 기대 총 보상과 알고리즘의 기대 총 보상의 차이로 표현됨.
- UCB, Thompson Sampling 모두 다음과 같은 후회 상한을 가짐:
  \(O(\sqrt{K T \log T})\)
  이는 \(T\)와 \(K\)에 대해 거의 minimax 최적임.
- 또한, 고려하는 인스턴스에 대해 다음과 같은 인스턴스 최적 후회율도 가짐:
  \(O\left(\frac{K}{\Delta} \log T \right)\)
ε-Greedy 알고리즘
- 성능 좋은 암 쪽으로 적응적으로 탐색을 유도하지 못해 비효율적임.
- 최적의 ε 값(\(\epsilon \sim T^{-1/3}\))에도 후회의 스케일은
  \(T^{2/3}\)
- ε를 고정하면 쉬운 인스턴스에서도 후회가 개선되지 않음.
Greedy 알고리즘
- 전혀 탐색하지 않음.
- 초기 샘플링이 각 암당 \(n=1\)일 때, 좋은 암이 보상 0, 다른 암 중 하나가 보상 1을 반환하면 suffix failure 발생 가능.
- 이는 작은 \(n\)의 인위적 문제 아님; 모든 \(n\)에 대해 확률이
  \(\Omega\left(\frac{1}{\sqrt{n}}\right)\)
  로 스케일되는 suffix failure가 발생 가능 (Banihashem et al., 2023).

5 Discussion and open questions

현재 대형 언어 모델(LLM)은 추가 개입 없이는 매우 기본적인 통계적 강화학습 및 의사결정 문제에서 요구되는 탐색(exploration)을 견고하게 수행하지 못하는 것으로 보임.
이에 대한 향후 연구 방향과 개입 방안을 아래와 같이 제안.

기본 개입과 방법론적 진전의 필요성

본 연구의 부정적 결과를 고려할 때, 다음과 같은 개입들이 유망할 수 있음:
1. 프롬프트 변경 실험: 프롬프트 템플릿에 작은 변화를 주어 성능 개선 가능성을 탐색. 다만, 프롬프트 설계에 대한 민감성은 여전히 문제임.
2. Few-shot 프롬프트 실험: 탐색 행동 예시를 포함하는 프롬프트 사용, 이를 이용해 LLM 미세조정 또는 학습 말뭉치에 탐색 행동 예시 추가.
3. 계산기 등 보조 도구 사용 교육: 기본 산술 계산기나 확률 분포 샘플링을 위한 “랜덤라이저” 도구 사용법을 LLM에 학습시키기.
그러나 비용, 모델 접근성, 컴퓨팅 자원 문제가 큰 장벽임. 특히 긴 시간 지평선 \(T\)과 많은 반복 실험 수 \(N\)로 통계적 의미 있는 결과를 얻어야 하기 때문.
따라서 비용 효율적인 LLM-에이전트 행동 진단 및 이해를 위한 방법론적·통계적 진전(예: 대리 통계량 사용)이 필수적임.

복잡한 의사결정 문제에 대한 시사점

본 연구에서 사용한 간단한 다중 슬롯머신(MAB) 문제는 LLM의 탐색 행동과 개입 효과를 평가하기 위한 명확하고 통제 가능한 실험 장치임.
MAB 환경에서의 탐색 실패는 복잡한 강화학습(RL) 및 의사결정 문제에서도 유사한 실패가 발생할 가능성을 시사함.
다만, MAB에서 성공한 해결책이 복잡한 환경에서는 잘 적용되지 않을 수 있으므로 주의가 필요함.
예를 들어, GPT-4가 요약된 상호작용 기록과 강화된 연쇄 추론(reinforced CoT)으로 MAB에서 성공적으로 탐색하였으나, 맥락이 있는 대규모 고차원 관찰(contextual bandits)에서는 외부에서 어떻게 기록을 요약해야 할지 불분명함(주석 1 참조).
선형 맥락 밴딧(linear contextual bandits) 환경에서도, 외부에서 선형회귀를 수행 후 프롬프트에 포함하는 등의 상당한 알고리즘적 개입 없이는 본 방법이 적용되기 어려움.
따라서 LLM이 의사결정 에이전트로서 얼마나 기능할 수 있는지 이해하기 위해선 더 깊은 알고리즘 개입에 대한 연구가 필수적임.

Hanyong Lee

[논문리뷰] Can large language models explore in-context? (NeurIPS 2024)

1 Introduction

주요 기여

방법론적 도전과 기여

2 Experimental setup

3 Experimental results

3.1 개요

3.2 실패 사례 분석

3.3 성공 사례 조사

3.4 실패 원인 탐색

4.1 Further background on multi-armed bandits

5 Discussion and open questions

기본 개입과 방법론적 진전의 필요성

복잡한 의사결정 문제에 대한 시사점

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)

Hanyong Lee

1 Introduction

주요 기여

방법론적 도전과 기여

2 Experimental setup

3 Experimental results

3.1 개요

3.2 실패 사례 분석

3.3 성공 사례 조사

3.4 실패 원인 탐색

4 Related work

4.1 Further background on multi-armed bandits

5 Discussion and open questions

기본 개입과 방법론적 진전의 필요성

복잡한 의사결정 문제에 대한 시사점

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)