[논문리뷰] Can large language models explore in-context? (NeurIPS 2024)
현존하는 대형 언어 모델들은 별도의 학습 없이 기본 성능만으로는 강화학습의 핵심인 탐험 능력을 잘 수행하지 못하며, 효과적인 탐험을 위해서는 외부 요약 등 비단순한 알고리즘적 개입이 필요함을 보였다.
1 Introduction
- 인컨텍스트 러닝(in-context learning)은 파라미터 업데이트 없이 LLM 프롬프트 내에서 문제 설명과 관련 데이터를 제시하여 미리 학습된 LLM을 문제 해결에 활용하는 중요한 능력이다 (Brown et al., 2020).
- 예를 들어, 숫자 공변량 벡터와 스칼라 타깃을 프롬프트로 주면, LLM이 새로운 공변량 벡터를 포함한 프롬프트를 통해 회귀 예측을 할 수 있다 (Garg et al., 2022).
- LLM은 이 행동을 명시적으로 학습받은 것이 아니며, 훈련 데이터에서 해당 알고리즘이 추출되어 대규모에서 자연스럽게 나타난다.
- 인컨텍스트 러닝은 GPT-3 모델에서 처음 발견된 이후 (Brown et al., 2020), 이론적 연구(Xie et al., 2021; Akyürek et al., 2022), 실험적 연구(Garg et al., 2022; Kirsch et al., 2022), 응용 연구(Xu et al., 2022; Som et al., 2023; Edwards et al., 2023)로 활발히 진행되고 있다.
- 기존 연구는 주로 행위 예측, 즉 감독 학습(supervised learning)에 집중해 왔다. 감독 학습은 중요하지만 많은 응용에서는 후속 의사 결정에 ML 모델을 활용해야 하므로, 인컨텍스트 강화 학습(ICRL)과 순차적 의사 결정을 연구하는 것이 자연스러운 다음 단계이다.
- 이미 LLM은 자연과학 실험 설계(Lee et al., 2023b), 게임 플레이(Shinn et al., 2023; Wang et al., 2023) 등에서 의사 결정 에이전트로 활용되고 있지만, ICRL에 대한 이론적·운용적 이해는 ICSL보다 현저히 부족하다.
- 의사 결정 에이전트가 갖추어야 할 핵심 능력은 일반화, 탐색(exploration), 계획(planning)이며, 본 논문은 탐색, 즉 불확실성을 줄이고 대안을 평가하기 위한 정보 수집 능력에 초점을 맞춘다.
- 최근 연구(Laskin et al., 2022; Lee et al., 2023a; Raparthy et al., 2023)는 트랜스포머 모델이 강화학습 데이터나 전문가 시연 데이터를 활용한 명시적 학습을 통해 인컨텍스트 탐색 행동을 보인다는 사실을 보여주지만, 이 과정은 비용이 크고 특정 작업에 의존적이며 일반 목적 LLM의 자발적 탐색 능력에 대해 알려진 바가 없다.
- 본 논문에서는 다음 질문을 제기한다: 현대 LLM이 인컨텍스트 탐색 능력을 자연스럽게 갖추고 있는가?
주요 기여
- 본 연구는 LLM을 간단한 합성 강화학습 문제인 다중 무장 밴딧(MAB) 환경에 에이전트로 투입하여, 환경 설명과 상호작용 기록을 모두 프롬프트 내에 명시하는 방식으로 인컨텍스트 탐색 행동을 분석했다.
- MAB 문제는 탐색과 착취의 균형 문제를 고립시켜 연구할 수 있으며, 일반 순차 의사 결정 학습의 기본 단위이다.
- Gpt-3.5, Gpt-4, Llama2를 대상으로 다양한 프롬프트 설계에 대해 평가한 결과, 단 한 가지 구성(Gpt-4 + 향상된 프롬프트)이 만족할 만한 탐색 행동을 보였다.
- 대부분 구성에서 탐색 실패가 발생했으며, 주된 실패 양상은 “접미사 실패(suffix failure)”로, 일정 시점 이후 최적 arm을 단 한 번도 선택하지 않는 현상이 나타났다. 예를 들어, Gpt-4와 기본 프롬프트 조합에서 >60%의 실험군에서 접미사 실패가 관측되었다.
- 또 다른 실패 양상은 “균등 선택 행동”으로, 모든 arm을 거의 동일하게 선택하여 좋은 arm로 좁히지 못하는 경우였다.
- 성공한 구성은 (a) 탐색을 유도하는 힌트 제공, (b) 상호작용 내역을 arm별 평균으로 외부 요약, (c) 제로샷 추론(zero-shot chain-of-thought reasoning)을 요구하는 프롬프트를 포함했고, 이는 Figure 1(b)에 시각화되어 있다.
- 이 결과는 최신 LLM이 적절한 프롬프트 설계를 통해 견고한 탐색 능력을 가질 수 있음을 시사한다.
- 그러나 외부 요약이 없는 동일 구성은 실패했는데, 이는 외부 요약이 어려운 복잡한 환경에서는 LLM이 탐색에 실패할 위험이 있음을 의미한다.
- 결론적으로, 현재 세대 LLM은 단순 RL 환경에서 적절한 프롬프트 엔지니어링이 있으면 탐색이 가능하나, 보다 복잡한 환경에서는 Lee et al. (2023a), Raparthy et al. (2023)과 같은 훈련 개입이 필요할 수 있다.
방법론적 도전과 기여
- LLM 성능 평가의 기술적 어려움은 프롬프트 설계의 조합적 탐색, 통계적 유의미성 확보, 비용 및 계산 제약을 동시에 고려해야 한다는 점이다.
- 인컨텍스트 밴딧 학습은 (a) 환경 내 확률성으로 충분한 복제를 요구하고, (b) 탐색·학습의 표본 복잡성으로 인해 수백~수천 번의 쿼리가 필요해 평가가 더 어렵다.
- 이에 본 연구는 장기 탐색 실패를 진단할 수 있는 대리 통계량(surrogate statistics)을 제안하는데, 이는 적은 복제 수와 짧은 학습 기간 내에도 효과적으로 측정 가능하다.
- 이 대리 통계량들은 전통적 성과 지표인 보상(reward)은 너무 노이즈가 많아 유용하지 않을 때 특히 효과적이다.
2 Experimental setup
- Multi-armed bandits (MAB) 문제 정의
- K개의 행동(arms)이 존재하며, 인덱스는 \([K] := \{1, \ldots, K\}\)로 표기
- 각 arm \(a\)는 평균 보상 \(\mu_a \in [0, 1]\)를 가지며 이는 미지수
- 에이전트는 \(T\) 타임스텝 동안 환경과 상호작용하며, 각 시점 \(t \in [T]\)에 arm \(a_t \in [K]\)을 선택
- 보상 \(r_t \in \{0, 1\}\)는 평균이 \(\mu_{a_t}\)인 베르누이 분포에서 독립적으로 추출
- MAB 문제는 평균 보상들 \((\mu_a : a \in [K])\)와 시간 한계 \(T\)에 의해 결정
- 목표는 총 보상을 최대화하는 것, 최선 arm (평균 보상이 가장 높은 arm)을 찾는 것과 유사
- 선택하지 않은 arm 보상은 공개되지 않아 탐색이 필수
- MAB 인스턴스 세부 설정
- 최선 arm의 평균 보상은 \(\mu^\star = 0.5 + \frac{\Delta}{2}\), 다른 arm들은 \(\mu = 0.5 - \frac{\Delta}{2}\)로 설정 (\(\Delta > 0\))
- \(\Delta = \mu^\star - \mu\)는 최선 arm과 두 번째 arm 간의 차이
- 주요 인스턴스: \(K=5\), \(\Delta=0.2\) (hard instance)
- 추가로 \(K=4\), \(\Delta=0.5\) (easy instance) 고려
- Prompt 설계
- LLM을 decision-making agent로 활용, MAB 문제 설명(타임호라이즌 \(T\) 포함)과 상호작용 히스토리를 프롬프트로 제공
- 프롬프트 구성의 독립적 선택 요소 5가지:
- 시나리오(scenario)
- a) 버튼 누르기 agent
- b) 광고 추천 엔진
- 프레이밍(framing)
- a) 탐색과 활용 균형 강조 (suggestive)
- b) 중립적 (neutral)
- 히스토리 표현
- a) 원시 형태(raw list)
- b) 요약 정보(재생 횟수, 각 arm의 평균 보상)
- 최종 응답 유형
- a) 단일 arm 선택
- b) arm들에 대한 분포 반환
- Chain-of-Thought (CoT)
- a) 응답만 요청
- b) CoT 설명 허용
- 시나리오(scenario)
- 총 \(2^5 = 32\)가지 프롬프트 조합 가능
- 기본 프롬프트는 버튼 시나리오, 중립 프레이밍, 원시 히스토리, 단일 arm 응답, CoT 없음
-
CoT는 zero-shot 상황에서 도움이 됨을 확인 (참고: Wei et al., 2022; Kojima et al., 2022)
- LLM 구성 및 파라미터
- 사용 모델: GPT-3.5, GPT-4, Llama2 (특정 버전 명시)
- 온도(temperature) 파라미터: 0(결정적), 1(랜덤성 부여)
- LLM 구성 식별: 5글자 코드 \(L_1 L_2 L_3 L_4 L_5\)
- \(L_1\): ‘B’ (버튼 시나리오), ‘A’ (광고 시나리오)
- \(L_2\): ‘N’ (중립 프레이밍), ‘S’ (탐색과 활용 강조)
- \(L_3\): ‘R’ (원시 히스토리), ‘S’ (요약 히스토리)
- \(L_4\): ‘C’ (CoT), ‘eC’ (강화 CoT), ‘N’ (CoT 없음)
- \(L_5\): ‘0’ (온도 0), ‘1’ (온도 1), ‘D’ (분포 반환, 온도 0)
- 예) “BNRN0”는 기본 구성
- 베이스라인 알고리즘
- Upper Confidence Bound (UCB)
- Thompson Sampling (TS)
- Greedy (탐색 안 하는 알고리즘, 초기화 후 최선 arm에 안 갈 확률 존재)
- 추가로 \(\epsilon\)-Greedy (확률 \(\epsilon\)로 탐색, 그렇지 않으면 Greedy)
- 파라미터 조정 없이 기본 설정으로 실행
- 실험 규모 및 반복
- 시간 한계 \(T=100\) 주로 사용
- 각 LLM 구성 및 MAB 인스턴스 당 \(N = \{10, 20\}\) 반복 실험
- GPT-4는 비용과 속도 문제로 대표적 10개 프롬프트 구성에만 \(N=10\) 반복 실시
- GPT-3.5는 48개 프롬프트 구성 각각 \(N=20\)으로 약 20만 쿼리 수행
- Llama2는 하드 인스턴스, 32개 구성, \(N=10\) 반복 제한
- 추가적으로 GPT-4는 \(T=200\), 최대 \(N=40\) 반복으로 안정성 점검 실시
- 주의점
- LLM 기반 MAB 실험은 비용과 시간이 많이 들며, 충분한 \(N\)과 \(T\)가 필요
- 탐색 실패와 같은 현상을 더 잘 감지하기 위해 누적 보상뿐 아닌 대체 지표 활용
- 프롬프트 디자인의 다양성이 결과에 미치는 영향도 고려하여 광범위한 실험 진행
- 핵심 수식
- 최선 arm 평균 보상: \(\mu^\star = 0.5 + \frac{\Delta}{2}\)
- 나머지 arm 평균 보상: \(\mu = 0.5 - \frac{\Delta}{2}\)
- 갭: \(\Delta = \mu^\star - \mu\)
3 Experimental results
- 본 섹션에서는 실험 결과를 제시함.
- 3.1절: 실험 개요
- 3.2절: 실패한 LLM 구성 분석
- 3.3절: 성공한 단일 LLM 구성 집중 분석
- 3.4절: 탐색 실패 원인 진단 시도
3.1 개요
- 대부분의 LLM 구성에서 탐색 실패가 발생하며, 최적 arm을 선택하지 못하고 수렴하지 않음.
- 실패 유형은 크게 두 가지:
- Suffix failure: 소수 초기 라운드 이후 최적 arm을 전혀 선택하지 않는 경우
- Uniform-like failure: 모든 arm을 균일하게 선택해 나쁜 arm을 제거하지 못하는 경우 (소수 구성에서 관찰)
- 예외는 Gpt-4의 BSS eC0 구성 (버튼 시나리오, 제안적 프레이밍, 요약된 히스토리, 강화된 CoT, 온도 0) 뿐임.
- Figure 3: 각 LLM 구성을 두 가지 실패 지표 SuffFailFreq와 MinFrac 축으로 표현한 산점도
- \(\text{SuffFailFreq}\) : suffix failure 정도
- \(K \cdot \text{MinFrac}\) : uniform-like failure 정도
- Figure 4: Gpt-4 구성별 요약 통계, BSS eC0만 성공적으로 탐색하여 최적 arm에 수렴함.
3.2 실패 사례 분석
- Gpt-4 중심 분석 (Gpt-3.5와 Llama2는 대체로 성능 저조, 자세한 내용 Appendix B 참고)
- Suffix failure:
- 대부분 구성에서 두 집단으로 나뉜 bimodal 행동 관찰: 일부 복제에서 최적 arm을 거의 안 뽑고, 나머지에서 빠르게 수렴.
- Suffix failure 빈도 \(\text{SuffFailFreq}(t) := \text{평균}(\text{best arm을 } [t, T] \text{에서 한 번도 선택하지 않은 경우})\)
- 산점도 X축으로 \(\text{SuffFailFreq}(T/2)\) 표기; 5개 구성 제외하고는 15% 이상 발생.
- Figure 1(top), Figure 5 등에서 자세한 bimodal 및 suffix failure 시각화.
- suffix failure는 장기적인 탐색 실패로 이어져 T가 큰 경우 보상 저하를 초래.
- Uniform-like failure:
- 3개의 Gpt-4 구성은 suffix failure를 피하지만, 2개는 균일하게 arm을 선택하며 정보 활용 실패.
- 분포 \(fa(t,R)\): 복제 \(R\)에서 시간 \([1,t]\) 동안 arm \(a\)가 선택된 비율
- \[\text{MinFrac}(t,R) := \min_a fa(t,R), \quad \text{MinFrac}(t) := \text{평균}(\text{MinFrac}(t,R) \text{ across replicates})\]
- \(K \cdot \text{MinFrac}(t)\) 를 Y축으로 표현, 1에 가까울수록 균등 분포에 가까움.
- Figure 6: BNRND, BNSND 구성에서 \(K \cdot \text{MinFrac}(t)\)가 감소하지 않고 유지되어 uniform-like failure 확인.
- 이는 suffix failure는 없지만 장기 보상 감소를 초래.
- 실패 현상은 하드 MAB 문제 및 버튼 시나리오뿐 아니라 다른 실험 설정에서도 확인됨 (부록 B참조).
- 요약 지표:
- \(\text{SuffFailFreq}(T/2), \quad \text{MinFrac}(T), \quad \text{MedianReward}, \quad \text{GreedyFrac}\) (Greedy와의 행위 유사도)
- Gpt-4가 Gpt-3.5 및 Llama2보다 우수하며, LLM 구성은 소폭 프롬프트 변경에도 민감하나 성능 향상을 단독적으로 평가하기 어려움.
3.3 성공 사례 조사
- 하드 MAB 문제에서 유일하게 실패 두 가지 유형 모두를 피하는 구성은 Gpt-4의 BSS eC0 임.
- Figure 4에서 확인 가능하며, 성공 구성이 suffix failure 0, \(K \cdot \text{MinFrac}\) 값도 TS와 유사, 보상도 TS급임.
- T=200, N=40 복제 실험에서 BSS eC0는 suffix failure 없이 보상이 양호.
- BSR eC0 구성 (raw 히스토리 사용)과 대조 시, BSR eC0는 suffix failure 빈도가 증가함.
- Figure 7: BSR eC0 vs BSS eC0 요약 통계 비교
- Figure 8: 각 구성별 시간 단계별 선택된 arm 시각화
- BNRN0: 특정 arm에 몰입하는 경향, Greedy와 유사
- BSR eC0: 몰입은 덜하지만 여전히 지속됨
- BSS eC0: arm 전환이 잦으며 Thompson Sampling과 유사한 행동
- Figure 9: 최적 arm 선택 비율 곡선
- BSR eC0는 UCB 유사, 일부는 suffix failures로 0에 수렴
- BSS eC0는 TS와 유사하게 거의 모든 복제가 1에 서서히 수렴
- 이로써 BSS eC0가 TS와 유사한 행동을 하며 충분히 긴 시간에서는 최적 arm로 수렴할 것임을 시사.
3.4 실패 원인 탐색
- 실패 원인 가설:
- LLM 구성이 과도하게 Greedy 함
- 혹은 균등 선택 (uniform-like) 경향이 강함
- Gpt-4 Easy / Hard 인스턴스에서 행동 차이 관찰됨 (Figure 13 참고).
- Easy 인스턴스에서는 대부분 LLM 구성이 suffix failure 없이 Greedy와 비슷하게 행동하며 좋은 성과.
- Hard 인스턴스에서는 대부분 LLM이 Greedy도 아니고 uniform도 아닌 복잡한 행동을 보임.
- 보조실험 (단일 라운드 t에서 arm 선택) 수행:
- 데이터 출처(Data source): 균등 무작위(Unif), UCB, TS 기반 히스토리
- 통계: GreedyFrac (현재까지 가장 좋은 arm 선택 비율), LeastFrac (가장 적게 선택된 arm 선택 비율)
- Figure 10: Gpt-3.5 구성 및 베이스라인의 라운드별 선택 통계 요약
- 실험 결과, 선택 성향은 데이터 출처에 크게 좌우되어 “LLM이 과도하게 Greedy인지 혹은 균등한지” 판단 어려움.
- 일부 LLM(예: BNSN0)은 너무 Greedy한 경향, BSRN0는 너무 균등한 경향 나타내나, 다수 구성은 베이스라인과 유사 범위 내에 있음.
- 따라서, 장기적 실험에서는 LLM과 베이스라인 간 탐색 실패 유형과 성능 차이가 크지만, 단일 라운드 결정 기반 평가로는 실패 원인 규명에 한계가 있음.
4 Related work
- 본 논문은 LLMs(대형 언어 모델)의 능력을 이해하고자 하는 최근 연구 흐름에 속함.
- LLMs의 전반적 지능(Bubeck et al., 2023), 인과 추론(Kıcıman et al., 2023), 수학적 추론(Cobbe et al., 2021), 계획 수립(Valmeekam et al., 2023), 조합성(Yu et al., 2023) 등 다양한 능력 연구가 있으나 본 논문 주제와는 다소 거리가 있음.
- 본 연구는 주로 in-context learning(문맥 내 학습) 능력에 초점을 맞춤.
- 관련 연구들은 이론적(Xie et al., 2021; Zhang et al., 2023a 등) 및 실험적(Garg et al., 2022; Kirsch et al., 2022 등) 접근법으로 수행되었음.
- 대부분은 in-context supervised learning에 집중했으며, in-context reinforcement learning(RL)은 상대적으로 적은 관심을 받음.
- in-context reinforcement learning 관련 연구
- Laskin et al. (2022), Lee et al. (2023a), Raparthy et al. (2023) 등은 RL 알고리즘이나 전문가의 궤적 데이터를 사용해 처음부터 훈련한 모델을 대상으로 함.
- 이론적으로 Lee et al. (2023a), Lin et al. (2023) 등은 베이지안 메타강화학습 관점에서 기존 transformer가 Thompson sampling, upper confidence bounds (UCB) 같은 탐험 전략을 수행할 수 있음을 증명함.
- 그러나 이들은 LLM 사전학습 단계 개입이 필요하고, 기존 LLM이 표준 훈련 조건에서 탐험 능력을 지니는지는 다루지 않음.
- 본 논문과 가장 유사한 연구는 Coda-Forno et al. (2023)
- Gpt-3.5 기반 2-armed bandit 과제에서 in-context learning 성능을 평가.
- Greedy(최대 수익 arms 선택)와 유사하거나 약간 낮은 성능을 보였으나, UCB와 같은 복잡한 알고리즘과 비교할 충분한 시간 범위를 고려하지 않음.
- LLM을 실제 의사결정 문제에 적용하는 연구도 급증 중
- 게임, 프로그래밍, 의료 분야에 대한 연구(Shinn et al., 2023; Wang et al., 2023 등).
- Park et al. (2023)은 오픈 월드 환경에서 인간 행동을 시뮬레이션하는 생성 에이전트를 개발.
- Ahn et al. (2022), Xu et al. (2023)은 LLM을 탑재한 로봇 개발.
- 동시 수행된 관련 연구
- Wu et al. (2024): 쉬운 bandit 문제(2 arms, gap \(\Delta = 0.6\))에서 GPT-4가 빠르게 최적 arm 선택, 인간과 비교, 단일 프롬프트 사용. 본 논문의 어려운 MAB 문제와 실험 결과는 차이가 있으나 쉬운 문제에서는 유사한 성공을 보임.
- Park et al. (2024): 주로 적대적 환경과 짧은 시간 범위 (\(T=25\) bandit) 연구, 중요도 가중 손실(importance-weighted losses) 적용.
- 뒤이어 발표된 업데이트판에서는 긴 시간 범위 \(T=100\) 에서도 LLM 성능 평가, 중요도 가중 처리 유무가 탐험 행동에 큰 영향(중요도 가중 시 성공, 제거 시 실패 증가).
- 이와 같은 결과는 본 논문에서 제시한 이력 사전처리(요약 또는 중요도 가중)가 LLM의 탐험적 행동을 끌어내는 데 중요하다는 결론과 일치함.
- 그 밖에 Schubert et al., Hayes et al., Coda-Forno et al. 등의 연구는 LLM이 결정과정에서 인간과 유사한 편향을 보이는지 탐구.
-
최근 LLM 기반 강화학습 기법 리뷰: Cao et al. (2024).
- 후속 연구
- Monea et al. (2024), Nie et al. (2024)는 본 논문 결과를 확장하며 contextual bandits 및 vanilla MAB을 대상으로 LLM이 탐험에 실패함을 확인.
- 두 연구 모두 LLM 탐험 능력 향상을 위한 중재책을 제안:
- Monea et al.: interaction history를 균등하게 subsample하는 training-free 개입.
- Nie et al.: few-shot prompting 및 최적 시범 이용한 파인튜닝 포함.
- 제안된 중재책이 성능 개선을 주지만, 여전히 전통적 알고리즘과 경쟁하기에는 부족함.
4.1 Further background on multi-armed bandits
- 멀티 암 밴딧 문제와 본 논문에서 사용된 기본 알고리즘들에 대한 추가 배경 설명.
-
자세한 내용은 Bubeck and Cesa-Bianchi (2012), Slivkins (2019), Lattimore and Szepesvári (2020) 참고.
- UCB 알고리즘 (Upper Confidence Bound, Auer et al., 2002a)
- 각 암 \(a\)에 대해 인덱스 계산:
\(\text{index}_a = \text{평균 보상}_a + \sqrt{\frac{C}{n_a}}\)
여기서 \(C = \Theta(\log T)\)이고, \(n_a\)는 해당 암을 지금까지 선택한 횟수. - 각 라운드에서 가장 큰 인덱스를 갖는 암 선택.
- 보너스 항은 “불확실성 하에서의 낙관주의” 원칙을 구현함.
- 본 논문에서는 경험적으로 좋은 성능을 보이는 휴리스틱 \(C = 1\)로 설정한 UCB 버전을 사용.
- 각 암 \(a\)에 대해 인덱스 계산:
- Thompson Sampling
- 베이지안 prior에서 암들의 평균 보상들이 초기 추출된 것으로 가정하고 시작.
- 매 라운드마다 지금까지의 히스토리를 바탕으로 posterior 계산 후, posterior에서 샘플링.
- 이 샘플을 실제 평균 보상으로 가정하고 가장 큰 평균 보상을 가진 암 선택.
- 본 설정에서 prior는 알고리즘의 파라미터이며, 각 암의 평균 보상을 \([0, 1]\) 구간에서 독립적이고 균일분포로 샘플링하는 표준 prior 사용.
- 각 암은 Beta-Bernoulli 공액 사전분포로 독립적으로 업데이트됨.
- 이 알고리즘은 근사 최적 후회(regret) 경계 및 좋은 실험적 성능을 가짐 (Kaufmann et al., 2012; Agrawal and Goyal, 2012, 2017).
- 알고리즘 성능 및 후회(Regret)
- 후회는 최적 암의 기대 총 보상과 알고리즘의 기대 총 보상의 차이로 표현됨.
- UCB, Thompson Sampling 모두 다음과 같은 후회 상한을 가짐:
\(O(\sqrt{K T \log T})\)
이는 \(T\)와 \(K\)에 대해 거의 minimax 최적임. - 또한, 고려하는 인스턴스에 대해 다음과 같은 인스턴스 최적 후회율도 가짐:
\(O\left(\frac{K}{\Delta} \log T \right)\)
- ε-Greedy 알고리즘
- 성능 좋은 암 쪽으로 적응적으로 탐색을 유도하지 못해 비효율적임.
- 최적의 ε 값(\(\epsilon \sim T^{-1/3}\))에도 후회의 스케일은
\(T^{2/3}\) - ε를 고정하면 쉬운 인스턴스에서도 후회가 개선되지 않음.
- Greedy 알고리즘
- 전혀 탐색하지 않음.
- 초기 샘플링이 각 암당 \(n=1\)일 때, 좋은 암이 보상 0, 다른 암 중 하나가 보상 1을 반환하면 suffix failure 발생 가능.
- 이는 작은 \(n\)의 인위적 문제 아님; 모든 \(n\)에 대해 확률이
\(\Omega\left(\frac{1}{\sqrt{n}}\right)\)
로 스케일되는 suffix failure가 발생 가능 (Banihashem et al., 2023).
5 Discussion and open questions
-
현재 대형 언어 모델(LLM)은 추가 개입 없이는 매우 기본적인 통계적 강화학습 및 의사결정 문제에서 요구되는 탐색(exploration)을 견고하게 수행하지 못하는 것으로 보임.
-
이에 대한 향후 연구 방향과 개입 방안을 아래와 같이 제안.
기본 개입과 방법론적 진전의 필요성
- 본 연구의 부정적 결과를 고려할 때, 다음과 같은 개입들이 유망할 수 있음:
- 프롬프트 변경 실험: 프롬프트 템플릿에 작은 변화를 주어 성능 개선 가능성을 탐색. 다만, 프롬프트 설계에 대한 민감성은 여전히 문제임.
- Few-shot 프롬프트 실험: 탐색 행동 예시를 포함하는 프롬프트 사용, 이를 이용해 LLM 미세조정 또는 학습 말뭉치에 탐색 행동 예시 추가.
- 계산기 등 보조 도구 사용 교육: 기본 산술 계산기나 확률 분포 샘플링을 위한 “랜덤라이저” 도구 사용법을 LLM에 학습시키기.
-
그러나 비용, 모델 접근성, 컴퓨팅 자원 문제가 큰 장벽임. 특히 긴 시간 지평선 \(T\)과 많은 반복 실험 수 \(N\)로 통계적 의미 있는 결과를 얻어야 하기 때문.
- 따라서 비용 효율적인 LLM-에이전트 행동 진단 및 이해를 위한 방법론적·통계적 진전(예: 대리 통계량 사용)이 필수적임.
복잡한 의사결정 문제에 대한 시사점
-
본 연구에서 사용한 간단한 다중 슬롯머신(MAB) 문제는 LLM의 탐색 행동과 개입 효과를 평가하기 위한 명확하고 통제 가능한 실험 장치임.
-
MAB 환경에서의 탐색 실패는 복잡한 강화학습(RL) 및 의사결정 문제에서도 유사한 실패가 발생할 가능성을 시사함.
-
다만, MAB에서 성공한 해결책이 복잡한 환경에서는 잘 적용되지 않을 수 있으므로 주의가 필요함.
-
예를 들어, GPT-4가 요약된 상호작용 기록과 강화된 연쇄 추론(reinforced CoT)으로 MAB에서 성공적으로 탐색하였으나, 맥락이 있는 대규모 고차원 관찰(contextual bandits)에서는 외부에서 어떻게 기록을 요약해야 할지 불분명함(주석 1 참조).
-
선형 맥락 밴딧(linear contextual bandits) 환경에서도, 외부에서 선형회귀를 수행 후 프롬프트에 포함하는 등의 상당한 알고리즘적 개입 없이는 본 방법이 적용되기 어려움.
-
따라서 LLM이 의사결정 에이전트로서 얼마나 기능할 수 있는지 이해하기 위해선 더 깊은 알고리즘 개입에 대한 연구가 필수적임.
Comments