[논문리뷰] LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments (ACL 2024)

7 minute read

대규모 언어 모델(LLM)의 새로운 벤치마크인 LLMArena를 소개하며, 이는 다중 에이전트 동적 환경에서 LLM의 다양한 능력을 평가할 수 있도록 설계되었다. 연구 결과, LLM은 완전한 자율 에이전트로 발전하는 데 있어 여전히 많은 개선이 필요하다고 강조한다.

1 Introduction

최근 대규모 언어 모델(LLMs)의 발전이 자연어 처리(NLP) 분야의 진전을 크게 촉진
- LLM은 다양한 다운스트림 작업에서 우수한 제로샷 능력을 발휘하며 특히 복잡한 텍스트 이해 및 생성에 강함
- 특정 작업에 대한 훈련 없이도 훌륭한 적응성 보유
LLM은 최소한의 유도 프롬프트를 사용하여 생소한 상황을 효과적으로 분석하고 대응 가능
- 이러한 특성으로 인해 LLM을 독립적인 에이전트로 간주하고, 소프트웨어 개발 및 지식 통합과 같은 복잡한 실제 작업에서 자동화된 지원 제공 가능
LLM의 에이전트로서의 능력을 파악하기 위해 연구자들은 특정 환경에서 LLM의 성능을 평가하기 위해 다양한 시나리오 개발 및 활용에 집중
- 예: AgentBench는 운영체제와 데이터베이스 등의 8개의 환경을 소개하여 코드 생성 및 측면 사고 능력을 평가
기존 벤치마크의 한계:
- AgentBench와 같은 정적 데이터셋 사용으로 인한 데이터 유출 및 오버피팅 문제 발생 가능
- 단일 에이전트에만 초점을 맞춘 평가 시스템의 한계
이를 보완하기 위해 LLMArena 제안
- 동적 다중 에이전트 상호작용을 위한 특별한 평가 기준
- 7종의 다중 에이전트 게임 환경을 포함
LLMArena의 사용 예:
- 각 게임 환경에서 에이전트의 공간적 이해, 전략적 계획, 수리적 추론, 위험 평가, 의사소통, 상대 모델링 및 팀 협력 능력 종합 평가
LLM의 성능을 보다 정확하게 평가하기 위해 TrueSkill™ 점수 시스템 적용
- 승률 외에도 에이전트 간의 상대적 기술 수준 평가 가능
14종의 다양한 크기와 유형의 LLM에 대한 광범위한 실험 및 인간 평가 수행
- 다중 에이전트 환경 내에서 LLM의 팀워크 및 상대 모델링 능력에서 유의미한 개선 가능성 확인
LLMArena가 향후 연구에 영감을 줄 것으로 기대
- LLM의 핵심 능력을 강화하여 실제 응용에서의 널리 사용 촉진 목표

2 Benchmark Detail

2.1 Benchmark Overview

LLMArena 내의 7개의 독특한 환경을 나타내는 그림 1
각 환경에서 LLM은 특정 능력 조합을 활용하여 과제를 효과적으로 해결해야 함
예시:
- Undercover 환경에서는 다음과 같은 다면적인 기술 세트가 필요함:
  - 상대 모델링
  - 효과적인 커뮤니케이션
  - 팀 협업
이러한 능력 중 하나라도 결여될 경우, 해당 환경에서 궁극적인 실패를 초래할 수 있음

2.2 Benchmark Construction

LLMArena의 사용자 친화성과 강력한 확장성을 보장하기 위해 PettingZoo를 기반으로 환경 개발
이 접근 방식으로 후속 연구자들이 새로운 환경을 쉽게 통합 가능
- PettingZoo 인터페이스 사양에 맞춘 환경 생성
- LLMArena에 새로운 환경 추가하여 LLM의 다양한 능력 평가 가능
LLMArena의 모든 환경은 시스템 프롬프트 제공
- 게임 규칙 및 LLM 에이전트를 위한 플레이 가이드 포함
프롬프트 템플릿에는 다음 정보 포함:
- 현재 게임 상태
- 역사적 데이터
- 다양한 선택적 행동
이를 통해 LLM 에이전트에게 보다 구조적이고 정보가 풍부한 게임 경험 제공
모든 프롬프트는 부록 A에 수록됨

2.3 Metrics

LLMArena에서 사용되는 평가 지표를 설명.
이전 연구와의 비교 분석.
TrueSkill™
- Herbrich et al. (2006)에 의해 개발된 점수 시스템.
- 경쟁 게임에서 여러 에이전트의 기술 수준 평가.
- 이전 연구에서 사용된 정적이거나 상대방과 무관한 지표(승률, 완료율)와 비교하여 더 세밀한 평가 제공.
- 단순 승패를 넘어서 게임의 질 및 플레이어 간 기술 차이 고려.
- 높은 기술의 상대를 이길 경우 더 많은 점수 획득.
- 단순 승률 계산과 달리, 상대방의 기술 수준을 반영하여 에이전트의 진정한 역량을 평가.
보상
- 현재 많은 연구에서 전문가 LLM을 활용해 다른 LLM의 능력을 평가.
- 그러나 이 방법은 종종 해석 가능성이 부족함.
- LLMArena는 강화 학습의 보상 개념을 활용하여 에이전트의 행동 품질을 평가.
- 이 방법은 LLM의 능력을 정량적이고 해석 가능하게 분석할 수 있는 격차를 해소.

2.4 Environment Settings

TicTacToe
- 3×3 격자에서 두 개의 LLM 에이전트가 번갈아가며 표시를 놓음.
- 세 개의 마크가 수평/수직/대각선으로 정렬되면 승리.
- 모든 셀이 채워지면 무승부.
- 주요 도전 과제: 전략적 계획 및 공간적 추론.
- 평가 기준: TrueSkill™ 등급.
ConnectFour
- 6×7 체스판에서 두 개의 LLM 에이전트가 번갈아 가며 선택.
- 한 열의 가장 낮은 빈 공간에 토큰을 놓음.
- 네 개의 마크가 정렬되면 승리.
- 주요 도전 과제: 전략적 사고 및 공간적 추론.
- 평가 기준: TrueSkill™ 등급.
Texas Hold’em
- 두 개의 LLM 에이전트가 플레이하는 카드 게임.
- 각 플레이어에게 2장의 개인 카드와 5장의 커뮤니티 카드가 배포됨.
- 4개의 베팅 라운드에서 협상 진행.
- 주요 도전 과제: 수치적 추론, 상대 모델링, 위험 평가.
- 평가 기준: TrueSkill™ 등급.
Undercover
- 두 그룹의 플레이어가 유사하지만 다른 단어를 받는 파티 게임.
- 커뮤니케이션 및 투표 단계로 나눠짐.
- 5개의 LLM 에이전트가 플레이; 감시자를 식별해야 함.
- 주요 도전 과제: 커뮤니케이션, 상대 모델링, 팀 협력.
- 평가 기준: 감시자로 플레이할 때의 승률.
Bargain
- 두 개의 LLM 에이전트가 아이템 분배 전략을 세워야 하는 반협력 게임.
- 각 아이템은 두 에이전트에게 고유한 가치 부여.
- 합의에 도달하면 최대 총 가치를 가진 에이전트가 승리.
- 주요 도전 과제: 수치적 추론, 커뮤니케이션, 상대 모델링.
- 평가 기준: TrueSkill™ 등급.
Bid
- 첫 번째 가격 봉인 입찰 경매에 기반한 환경.
- 두 개의 LLM 에이전트가 각기 다른 내적 가치를 가진 아이템에 대해 입찰함.
- 주요 도전 과제: 수치적 추론, 상대 모델링.
- 평가 기준: 평균 보상.
Hanabi
- 협력적인 카드 게임으로, 두 개의 LLM 에이전트가 서로의 카드만 볼 수 있음.
- 정보 토큰을 사용해 카드를 드러내고, 버리고, 플레이하여 불꽃을 형성.
- 주요 도전 과제: 팀 협력, 전략적 계획, 수치적 추론.
- 평가 기준: 다양한 LLM 팀의 평균 보상.

3.1 Experiments Setup

실험은 폐쇄형 소스 GPT 계열 LLM의 API를 직접 호출하여 수행
오픈 소스 LLM은 로컬에 배포 후 OpenAI API 호출 형태로 캡슐화
재현 가능성을 보장하기 위해 모든 LLM의 온도를 0으로 설정
Undercover를 제외한 모든 환경에서 LLMArena 실행:
- 모델 간 TrueSkill™ 등급 수렴 시점까지 진행
- 각 모델 및 환경에서 50게임 이상 플레이
Undercover 환경에서:
- 각 LLM을 잠입 요원으로 하여 100게임 플레이
- 4명의 GPT-3.5-turbo 비잠입 요원과 함께 플레이
초기 설정:
- 모든 LLM 에이전트의 TrueSkill™ 점수: 25.0
- 분산(variance): 8.33

3.2 Main Result

표 1에서는 LLMArena의 7개 환경에서 14개의 다양한 LLM의 상대 정규화 점수를 제공합니다.
정규화 이전의 원본 데이터는 부록 C에서 확인할 수 있습니다.
주요 결론:
- 모델 파라미터의 크기가 증가함에 따라 LLM의 능력이 개선됨.
  - 예: 약 70B 파라미터 모델들의 평균 성능은 82.87.
  - 약 30B와 10B 파라미터 모델들은 각각 80.68과 71.05의 평균 성능을 기록.
  - 10B에서 30B로의 모델 크기 증가에 따른 성능 향상 (+9.63)은 30B에서 70B로의 증가 (+2.19)보다 더 두드러짐.
- LLM의 크기가 큰 모델들이 같은 계열의 작은 모델들보다 높은 성능을 보이는 경향이 있으나, 특정 환경에서는 예외가 존재.
  - 예: Undercover 환경에서 Qwen-72B는 Qwen-14B보다 25.93 낮은 점수를 기록, 이 경향에서 벗어남.
- Bid와 Hanabi 환경에서의 LLM 성능은 모든 환경의 평균에 비해 상당히 낮음.
  - Bid에서 17.72, Hanabi에서 10.88 점수 부족.
  - 규모가 작은 LLM(∼10B)는 이 환경들에서 평균보다 각각 31.71 및 15.45 더 낮은 점수.
  - 이는 숫자적 추론, 상대 모델링 및 팀 협업이 LLM에게 여전히 큰 도전 과제임을 강조.
- GPT-4와 다른 모델들 사이의 성능 격차가 상당함.
  - GPT-4는 평가된 모든 작업에서 SOTA 성능을 달성하며, 다른 모델들보다 평균 16.76의 차이로 우수함.

4 Analysis

전반적인 실험 목표
- LLM을 공간 이해, 전략 계획, 수치 추론, 위험 평가, 커뮤니케이션, 상대 모델링, 팀 협력 등 7가지 주요 관점에서 평가.
공간 이해
- 100회의 자기 플레이 게임을 통해 LLM의 승률과 환상 발생 빈도 기록.
- 위치 정보 없이 게임 진행 시 환상 발생 확률 59.5% 증가, 승률은 평균 38.3% 감소.
- 2D 체스판의 수직 차원 이해에 제한이 있으며, 1D 문자열로 변환 과정에서 정보 손실 발생.
- TicTacToe에서 성능 저하가 더 두드러짐.
전략 계획
- ConnectFour 환경의 보드 가치 함수 정의: \(V(s) = 10 \times (My4(s) - Oppo4(s)) + 5 \times (My3(s) - Oppo3(s)) + 2 \times (My2(s) - Oppo2(s))\)
- 매개변수가 많은 LLM이 전략적 계획에서 우수함을 보임.
- 인간 플레이어가 모든 게임에서 승리하며, GPT-4는 보상 극대화를 우선시하지 않음.
커뮤니케이션
- LLM의 게임 내 힌트 분석, 평균적으로 95.30%의 성공률 기록.
- 다른 LLM의 정보를 해석할 때 의사소통 오류 발생.
상대 모델링
- LLM이 상대의 비밀 단어를 추론하는 능력 검토.
- GPT-4가 가장 뛰어난 추론 및 상대 모델링 능력을 발휘하였으며, 성공적으로 적절한 힌트를 조정.
수치 추론
- 경매 상황에서 LLM의 입찰 행동 분석.
- 대부분의 LLM이 내기 균형보다 높은 입찰을 시도함.
위험 평가
- Texas Hold’em 카드 게임에서 LLM의 위험 평가 능력 검토.
- LLM이 보수적인 접근 방식을 선호하며, GPT-4는 높은 승률일 때 공격적인 전략을 선택함.
팀 협력
- Hanabi 환경에서 팀 협력의 효율성 분석.
- 대부분의 LLM이 카드 공개 행동을 많이 사용하지만, 정보를 공유하기 위한 카드 버리기는 소홀히 함.

LLM 평가
- LLM의 빠른 발전으로 기존 NLP 작업의 평가 방법이 성능을 제한함 (Hu et al., 2023b 등).
- 사람에 의해 작성된 시험 질문 사용이 주류 평가 패러다임으로 발전, 세계 지식과 추론 능력 테스트에 집중 (Hu et al., 2023a 등).
- 다양한 차원에서 LLM을 평가하는 새로운 벤치마크 및 방법 제안:
  - 전문 분야에 대한 적응성 (Xiang et al., 2023).
  - 현실 세계 응용 (Li et al., 2023b; Liu et al., 2023a, 2024b,a).
  - 강건성 (Zhu et al., 2023; Hu et al., 2024).
  - 다중 모달 능력 (Fu et al., 2023).
LLM을 에이전트로 간주하는 추세
- 학계에서 LLM을 에이전트로 취급하는 연구 증가 (Liu et al., 2023b; Wu et al., 2023).
- 게임에서 에이전트로 작동할 때 LLM 성능 평가 시도.
- 하지만 대부분의 연구는 단일 에이전트에 한정, 그룹 행동과 협력 시나리오의 특성을 충분히 포착하지 못함.
LLM 기반 에이전트
- 강화 학습이 자율 에이전트 훈련에 광범위하게 사용됨 (Ribeiro, 2002 등).
- LLM을 인지 개체 및 에이전트의 컨트롤러로 활용하는 것이 인정받고 있음 (Huang et al., 2022 등).
- CoT 기술 소개, LLM 기반 에이전트의 추론 및 계획 능력 강화 (Wei et al., 2022).
- 협력적 및 적대적 프레임워크가 단일 에이전트보다 여러 작업에서 일반적으로 우수함 (Park et al., 2023).

6 Conclusion

LLMArena라는 벤치마크를 도입하여 LLM 에이전트의 다양한 능력을 평가
7개의 게임 환경 분석 결과, LLM의 약점 드러남:
- 공간 추론
- 상대 모델링
- 팀 협력
LLM 에이전트의 성능 향상이 동적 다중 에이전트 환경에서의 주요 도전 과제로 남아 있음
LLMArena의 활용 기대:
- 향후 연구자들이 다양한 시나리오에서 평가를 진행할 것으로 예상
한계점:
- LLM 에이전트의 능력은 텍스트 분석을 넘어서야 함
  - 비디오와 오디오 등 다양한 모달 입력과의 상호작용 필요
- 외부 도구를 활용하는 LLM의 가능성 탐구 부족
윤리적 고려사항:
- LLM 에이전트의 책임 있는 사용과 악용 가능성 문제 제기
- 결정권에 LLM을 배치할 경우 책임 소재와 윤리적 프레임워크 필요
- 가이드라인 및 모니터링의 필요성 강조

Limitations

LLM 에이전트를 둘러싼 윤리적 문제는 다음과 같은 여러 도전 과제가 있음:
- 책임 있는 사용의 필요성
- 남용 가능성
자율 LLM 에이전트를 의사 결정 역할에 배치할 경우:
- 책임 문제 제기
- 비윤리적 사용을 방지하기 위한 강력한 프레임워크 필요
남용 가능성:
- 상황 조작 또는 시스템 악용 가능성 존재
- 엄격한 지침 및 모니터링 필요

Hanyong Lee

[논문리뷰] LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments (ACL 2024)

1 Introduction

2 Benchmark Detail

2.1 Benchmark Overview

2.2 Benchmark Construction

2.3 Metrics

2.4 Environment Settings

3.1 Experiments Setup

3.2 Main Result

4 Analysis

6 Conclusion

Limitations

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)

Hanyong Lee

1 Introduction

2 Benchmark Detail

2.1 Benchmark Overview

2.2 Benchmark Construction

2.3 Metrics

2.4 Environment Settings

3.1 Experiments Setup

3.2 Main Result

4 Analysis

5 Related Works

6 Conclusion

Limitations

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)