[논문리뷰] Theory of Mind for Multi-Agent Collaboration via Large Language Models (EMNLP 2023)

15 minute read

본 연구는 대형언어모델(LLM) 기반 에이전트의 다중 에이전트 협력 및 마음 이론(ToM) 추론 능력을 평가하고, 명시적 신념 상태 표현이 성능과 ToM 정확성을 향상시킨다는 점을 밝혔다.

1 Introduction

최근 GPT-4(OpenAI, 2023) 같은 대형 언어 모델(LLM)은 수학, 법률 등 다양한 분야와 작업에서 미세조정이나 특별한 프롬프트 없이도 뛰어난 성능을 보여주고 있음(Bubeck et al., 2023).
이러한 발전은 자연어 처리(NLP) 연구의 판도를 크게 변화시켰으며, 도메인별 모델 개발에서 벗어나 LLM의 능력을 평가하고 활용하는 방향으로 초점이 이동함.
이 변화는 기계 행동 연구(machine behaviors) 개념과 부합하며, 이는 컴퓨터 과학의 전통적 경계를 넘어서 다양한 과학 분야의 통합적 인사이트를 포함함(Rahwan et al., 2019).
본 연구는 팀 과학과 집단 심리학에서 영감을 받아(Hagendorff, 2023), LLM의 다중 에이전트 협력 능력을 평가하는 집단적 기계 행동에 집중함.
현대 LLM의 지능 수준에 대한 논쟁이 존재함.
- 일부는 LLM이 주로 언어적 능력에 뛰어나고 언어를 넘는 인지능력(기능적 능력)에는 어려움을 겪는다고 주장함.
- 반면 다른 연구들은 LLM이 공식적 추론(formal reasoning)과 세계 지식 이해(world knowledge comprehension) 같은 인지능력을 보여준다고 밝힘(Mahowald et al., 2023; Bubeck et al., 2023).
이에 본 연구는 텍스트 기반 게임을 고안하여 LLM의 구현된 상호작용 능력(예: 미지 환경 탐험, 세계에 대한 신념 유지, 다른 에이전트와 협력)을 평가함.
마음 이론(Theory of Mind, ToM)은 타인의 숨겨진 정신 상태를 추론하는 능력으로, 인간의 사회적 상호작용과 협력, 의사소통에 필수적임(Zhang et al., 2012).
LLM이 인간과 다양한 사회적 상호작용에 점점 더 참여함에 따라, 이들의 사회적 지능 향상은 효과적인 협력을 위해 중요함(Williams et al., 2022; Li et al., 2022).
- 예를 들어, AI 비서는 별도 질문 없이도 과거 경험을 토대로 인간의 선호를 추론할 수 있어야 함.
최근 연구에서는 고전적인 ToM 과제를 여러 LLM에 적용하여 현재 모델들(e.g., GPT-4)이 9세 아동 수준에 근접한 성능을 보인다고 보고했음(Kosinski, 2023).
그러나 텍스트 기반 ToM 테스트의 기계 지능 평가 유효성에 대해 의문이 제기되고 있음(Ullman, 2023; Sap et al., 2023).
본 연구는 다중 에이전트 간의 동적 신념 상태 변화와 풍부한 의도 소통을 포함하는 상호작용적 팀워크 시나리오에서 LLM의 고차원 ToM을 평가하는 새로운 방식을 제안함.

주요 기여

강화 학습 및 계획 기반 베이스라인과 비교하여 다중 에이전트 협력 과제에서 LLM 기반 에이전트의 구현된 상호작용 능력 평가
LLM 에이전트 협력 효율을 제한하는 체계적인 실패 요인 식별 및 이를 완화하기 위해 모델 입력에 세계 지식에 대한 명시적 신념 상태 표현을 포함하는 프롬프트 엔지니어링 방법 제안
다중 에이전트 간 동적 신념 상태 진화와 풍부한 의도 소통을 포함하는 상호작용 팀워크 시나리오에서 LLM의 고차원 ToM에 대한 새로운 평가 방법론 제안

대형 언어 모델 (Large language models)
- 방대한 텍스트 말뭉치로 학습된 대형 언어 모델은 텍스트 완성 및 다양한 NLP 응용 분야에서 뛰어난 성능을 보임 (Chowdhery et al., 2022; Thoppilan et al., 2022).
- 최근 연구들은 추론 능력(Bubeck et al., 2023; Wei et al., 2022)과 행동 계획 생성(Liu et al., 2023; Xie et al., 2023)에서의 가능성을 강조하며, 특히 chain-of-thought와 같은 프롬프트 엔지니어링 기법 활용 시 효과적임.
- 그러나 실제 사물과 상호작용할 때 실행 가능한 계획 수립에는 한계가 있음(Ahn et al., 2022; Huang et al., 2022).
- GPT-4는 텍스트 기반 게임과 현실 문제 해결에서 구현된 상호작용 능력이 평가됨(Bubeck et al., 2023).
- Minecraft 환경에서 LLM 기반 구현 에이전트의 잠재력도 탐구됨(Wang et al., 2023b,a).
- 이러한 연구들은 환경 이해, 작업 수행, 행동 계획, 피드백 해석, 적응 등을 수행할 수 있음을 시사.
- 본 연구는 협력적 다중 에이전트 시나리오에서 LLM의 계획 능력을 확장하여 평가하고자 함.
마음 이론 (Theory of Mind, ToM)
- LLM의 ToM 능력은 예상치 못한 이동 과제(Unexpected transfer task), 예상치 못한 내용 과제 등 텍스트 기반 변형 테스트를 통해 평가됨(Kosinski, 2023; Moghaddam and Honey, 2023).
- 상위 LLM들은 90% 이상의 사례를 통과하지만, 복잡한 ToM 추론(의사소통, 2차 신념)에서는 어려움을 겪음(Ullman, 2023).
- 본 연구에서는 대화가 이루어지는 팀 작업 중 동적으로 변하는 에이전트의 정신 상태를 다루어, 이전 연구 대비 더 높은 추론 복잡도를 가짐.
- 에이전트 간 정보 교환을 통한 정신 상태 갱신이 관찰과 소통 모두에서 발생함.
- ToM은 다양한 인공 에이전트 성능 향상에 활용됨.
- Lim et al. (2020)은 베이지안 ToM(BToM)과 최적 계획 에이전트를 협력 게임에 통합하여 타인의 의도 명시적 표현이 인간-에이전트 팀 성능 향상에 기여함을 보임.
- SymbolicToM은 그래픽 표현을 활용하여 다중 캐릭터에 대한 명시적 ToM을 언어 모델에 부여함(Sclar et al., 2023).
- ToM을 활용한 다중 에이전트 강화학습에서 협력 증진 연구가 다수 진행됨(Oguntola et al., 2023; Yuan et al., 2021).
- 본 연구는 이러한 선행 연구들을 바탕으로 명시적 신념 표현을 통해 LLM 기반 에이전트의 협력 행동을 향상시키고자 함.
다중 에이전트 협력 (Multi-agent collaboration)
- 팀 과학 분야에서는 리더십, 소통, 팀 동역학, 팀 응집력, 공유 상황 인식 등 인간 협력 행동을 수십 년간 연구함(Riedl et al., 2021).
- 하지만 이러한 연구 결과들이 인간-에이전트 하이브리드 팀이나 완전 자동화 팀으로의 전이 가능성은 아직 충분히 탐구되지 않음.
- Park et al. (2023)은 ChatGPT를 사용해 생성 에이전트들이 모인 샌드박스 환경을 운영하며 LLM 기반 에이전트 간 사회적 행동의 출현 가능성을 관찰하였음.
- 해당 연구는 주로 LLM을 활용한 샌드박스 환경 실행 가능성에 초점을 맞추었으며, 기계 지능의 협력 행동에 대한 구체적 분석은 제한적임.

3 Multi-agent Collaboration Tasks

LLM 기반 구현 에이전트의 능력을 평가하기 위해, 다중 에이전트 환경을 설계하여 수색 및 구조 임무의 협력 및 문제 해결 역학을 시뮬레이션함.

3.1 Task environment

3명의 에이전트(Alpha, Bravo, Charlie)가 팀 내 전문가 역할을 수행하며, 탐험되지 않은 환경에 흩어진 색상 코드 폭탄을 찾아 안전하게 해체하는 것이 목표.
각 폭탄은 \(m\) 색상의 고유한 단계 시퀀스를 가지며, 올바른 순서의 와이어 커터 사용이 필요함.
팀원들은 서로 다른 색상의 커터를 가지고 시작하며, 효율적인 해체를 위해 협력 및 동기화가 요구됨.
환경은 연결된 그래프로 구상되어 있으며, \(n\)개의 노드는 방을, 간선은 복도를 나타냄.
각 라운드에서 에이전트는 다음 세 가지 행동 중 선택 가능:
- \(n\)개의 방 중 한 곳으로 이동
- 현재 방에 있는 폭탄의 단계 시퀀스 검사
- \(m\)개의 와이어 커터 중 하나 사용
행동 공간 크기: \(n + m + 1\)
에이전트 관찰은 현재 방 내부와 에이전트 상태로 제한되며, 팀 점수, 현재 방 내용, 팀원 위치 및 사용 가능한 도구 정보를 주기적으로 업데이트 받음.
팀은 \(x\)-단계 폭탄을 성공적으로 해체할 때마다 \(10 \times x\) 점수를 획득함.
평가 환경:
- 5개의 방 (\(n=5\))과 5개의 폭탄 포함
- 폭탄 종류: 단일 단계 2개, 이중 단계 2개, 삼중 단계 1개
- 단계 색상 수: \(m=3\)
최대 점수: 모든 폭탄 해체 시 \(2 \times 10 + 2 \times (2 \times 10) + 3 \times 10 = 90\)
팀 성과 측정 지표:
- 팀 점수 (협력의 질)
- 완료까지 걸린 라운드 수 (협력 효율성)
실험 종료 조건:
- 모든 폭탄 해체
- 시간 제한 초과 (30 라운드)
- 반복된 행동으로 인한 교착 상태 진입

3.2 Text game interface

초기 임무 환경은 Gym API 기반 MARL 에이전트를 위해 구현됨.
LLM 기반 에이전트와 환경 간 상호작용을 위해 텍스트 인터페이스 통합.
각 라운드마다 세 에이전트가 순차적으로 환경과 상호작용하며, 자연어 인터랙션을 통해 관찰을 받고 행동을 수행함.
내장된 통신 메커니즘으로 매 라운드 에이전트 간 텍스트 메시지 교환 가능.
에이전트는 명시적으로 소통하지 않는 한 서로의 행동 및 결과를 알지 못하며, 이는 Theory of Mind 추론 기회를 제공.
규칙 기반 텍스트 인터페이스가 관찰을 자연어 설명으로 변환하고, 채팅 내용을 행동 선택으로 인코딩함.
- 관찰 설명 예: 현재 라운드 번호, 누적 점수, 행동 피드백, 현재 방 내용, 팀원 위치, 교신 메시지 포함
- 행동 인코딩은 키워드 매칭을 통해 진행.
비논리적이거나 유효하지 않은 행동 발생 시 인터페이스가 사전 정의된 템플릿에 따른 오류 메시지 출력 (예: “현재 위치 Room X에는 검사할 폭탄이 없습니다.”).
그림 1에서는 에이전트 팀과 텍스트 인터페이스를 통한 환경 간 상호작용 예시를 보여줌.

4 LLM-based Embodied Agents

OpenAI의 최신 챗 컴플리션 모델(gpt-3.5-turbo-0301, gpt-4-0314)을 사용하여 평가를 진행함 (Zheng et al., 2023).
이 모델들은 텍스트 기반 게임 환경에서 체화된 에이전트로서 동작하며, 사용자 입력은 게임 인터페이스가 관리함.
게임 규칙이 컨텍스트로 제공되며, 매 라운드 현재 상태 관찰 및 과거 상호작용 기록을 바탕으로 행동 선택 및 메시지 출력을 수행.
LLM 기반 에이전트와 텍스트 게임 인터페이스 간의 상호작용 기록은 모델 입력 최대 크기(4096 tokens)를 넘지 않는 범위 내에서 유지됨.
모든 에이전트는 게임 규칙과 이전 두 라운드의 히스토리를 기억함.
프레임워크 구성 (그림 1 참고)
- 3명의 LLM 기반 에이전트(Alpha, Bravo, Charlie)
- 텍스트 게임 인터페이스
- 실제 작업 환경
- LLM의 자연어 출력은 텍스트 인터페이스를 통해 추상적인 행동 명령어로 인코딩되어 작업 환경에 전달됨.
- 작업 환경은 에이전트 행동을 처리하고 관찰 결과를 텍스트 인터페이스로 반환함.
- 에이전트는 환경 관찰을 받고 믿음 상태(belief state)를 업데이트하고, 새로운 행동과 메시지를 출력함.
- 3명의 에이전트는 순서대로 인터페이스와 상호작용함.
4.1 다중 에이전트 통신
- 협동적 임무 수행에 적합하도록, 팀 내에서 텍스트 메시지를 공유하는 통신 채널 구현.
- 보낸 메시지는 즉시 모든 팀원에게 방송되며 다음 관찰에 반영됨.
- 에이전트들은 메시지 전송을 번갈아 하므로, 동료들의 답변은 다음 라운드 관찰에서 확인 가능.
- 예) Alpha가 분리 행동을 지시 후 Bravo가 피드백 제공.
4.2 믿음 상태 (Belief State)
- 모델 입력 크기 제한으로 전체 상호작용 기록 유지가 불가하나, 팀은 주요 장기 정보(방 내용, 폭탄 시퀀스 등)를 추적해야 함.
- 이를 위해 명시적 믿음 상태를 나타내는 프롬프트 엔지니어링 기법 제안.
- 에이전트는 환경 관찰을 받으면, 핵심 작업 관련 정보를 저장하는 텍스트 형태의 믿음 상태를 업데이트.
- 이 업데이트된 믿음 상태는 상호작용 기록에 보관되어 이후 행동 계획에 활용됨.
- 예) 폭탄 1 검사 후 Alpha는 폭탄 시퀀스를 미상에서 빨강으로 업데이트하고 이를 유지.
- 믿음 상태 업데이트는 chain-of-thought prompting 기법(Wei et al., 2022)에서 영감을 받음.
- 초기 믿음 상태 설명은 포맷과 표현을 보여주기 위해 제공되나, 업데이트 규칙은 완전히 제로샷이며 LLM의 상식 및 임무 컨텍스트에 의존함.
수식 표현
- 최대 모델 입력 토큰 수: \(4096 \text{ tokens}\)
- 행동 및 메시지 선택 시 현재 상태 관찰 및 과거 대화 기록을 사용:
\[\text{Action}, \text{Message} = \mathrm{LLM}(\text{Current Observation}, \text{History}_{t-1 \vert t-2}, \text{Game Rules})\]

5 Experiments

본 연구에서는 3인 팀으로 구성된 LLM 기반 육체화 에이전트를 체계적으로 분해(ablate)하여 협력 과제 수행 능력을 평가함.
두 가지 모듈을 조작:
- LLM 모델 (GPT-4 또는 ChatGPT)
- 신념 상태(belief representation)의 유무
총 4가지 실험 조건을 구성.

5.1 Setups

각 실험 시도 시작 시 3인 팀 에이전트를 구성하고 작업 환경(task environment)을 초기화, 시작 위치, 방 연결, 폭탄 분포 및 순서를 무작위로 설정.
에이전트는 초기 관찰에 기반해 행동 선택 및 통신 메시지를 차례로 수행.
각 에이전트는 부분 관찰(partial observation)만을 갖고, 상호 커뮤니케이션이 유일한 정보 확산 수단임 (완전 분산 팀).
LLM 기반 에이전트는 모델의 온도 파라미터를 0으로 설정하고, 결과 안정성을 위해 3회 반복 측정을 수행.
각 시도 시간은 과제 부담 및 모델에 따라 5분에서 120분 사이로 변동.

5.2 Baselines

LLM 에이전트 외에 MARL 및 계획(planning) 방법 기반 베이스라인 포함.
MARL:
- MultiAgent Proximal Policy Optimization (MAPPO) 사용 (Yu et al., 2022).
- SMAC 환경 기반 기본 하이퍼파라미터 활용해 학습.
- 상태 기반 Actor-Critic 방식으로, 공유된 actor와 critic 모델을 사용해 에이전트 불변성 유지 및 성능 향상.
- 팀 보상: x-단계 폭탄 해체 성공 시 \(10 \times x\) 점수 부여.
- 중간 보상: 올바른 와이어커터 사용 시 +1, 잘못 사용해 폭탄 폭발 시 -1 부여하여 학습 효율 개선.
- MARL 에이전트도 팀원 위치 관찰 가능.
계획(Planning):
- Conflict-Based Search (CBS) 알고리즘(Sharon et al., 2015)을 MultiAgent Path-Finding (MAPF) 문제에 적용.
- 작업 할당(task assignment) 및 충돌 없는 경로 생성.
- 사용자 정의 보상 함수에 따른 점수 최대화를 목표로 함 (즉, 폭탄 해체 성공 시 \(10 \times x\) 점수).
- 작업을 하이퍼파라미터(한 서브태스크 당 액션 수)를 이용해 서브태스크로 분할하여 순차 처리.
- CBS는 이진 제약 트리를 최우선 탐색(best-first search)으로 확장하여 서브태스크의 시간 및 우선순위 제약 해결.
- 5개의 폭탄을 하나의 서브태스크로 처리하면 점수에 대한 완전성 및 최적성 보장 가능.

에이전트 유형	점수 (평균 ± 표준편차)	완료까지 라운드 평균	유효 행동 비율
ChatGPT	\(43 \pm 4.7\)	\(30.0 \pm 0.0\)	62.5%
GPT-4	\(90 \pm 0.0\)	\(28.3 \pm 2.6\)	71.8%
GPT-4 + Belief	\(90 \pm 0.0\)	\(12.3 \pm 2.0\)	86.1%
MAPPO	\(90 \pm 0.0\)	\(11.0 \pm 0.0\)	N/A
CBS Planner	\(90 \pm 0.0\)	\(6.0 \pm 0.0\)	N/A
Random	\(38 \pm 14.7\)	\(30.0 \pm 0.0\)	N/A

점수(score): 모든 실험 시도에서 팀 점수 평균.
라운드 수(rounds): 과제 완수까지 걸린 평균 라운드 수.
유효 행동 비율: LLM 출력 중 과제 규칙에서 허용된 행동으로 인코딩 가능한 비율.

5.3 Theory of Mind (ToM) Inferences

주 과제 수행 도중, LLM 기반 에이전트는 Theory of Mind (ToM) 추론도 수행하도록 함.
ToM 추론은 세 가지 수준으로 분류:
1. 내성(Introspection): 에이전트가 자신의 정신 상태를 서술할 수 있는 능력.
2. 1차 ToM 추론: 타인의 숨겨진 정신 상태를 추정하는 능력.
3. 2차 ToM 추론: 타인이 자신의 정신 상태에 대해 어떻게 믿고 있는지를 추론하는 능력.
ToM 질문 설계는 Sally–Anne 테스트에서 영감을 받음.
에이전트가 행동을 할 때마다, 해당 행동의 결과(상태 변화 또는 신념 변화)에 대해 다른 에이전트가 인지하고 있는지 질문함.
- 예: 폭탄이 해체되었는지, 특정 방에 폭탄이 있다는 정보가 다른 에이전트에게 전달되었는지 등.
ToM 능력이 있는 에이전트는 자신이 결과를 알고 있더라도 대상 에이전트가 잘못된 신념을 가질 수 있음을 인지해야 함.
ToM 질문에 대한 답변의 정합성을 평가하기 위해 인간 평가자가 완전한 상호작용 및 통신 기록을 기준으로 주관적 판단 수행.
판단 기준: 대상 에이전트가 1) 현재 방에 있는지, 2) 과거에 해당 방에 가본 적이 있는지, 3) 결과가 대상 에이전트에게 전달되었는지 여부.
고차원 ToM 추론은 커뮤니케이션에 의존해 모호함이 있을 수 있으므로, 평가자 간 토론을 통해 평가 기준 통일함.

예시: GPT-4 + Belief 조건은 긍정적인 ToM 추론을 보이고, ChatGPT는 부정적인 ToM 추론 결과를 보임(그림 2 참조).
LLM 에이전트 간 협업 및 실수 사례(예: 장기 문맥 무시)도 관찰됨.

6 Results

본 섹션에서는 주요 실험 결과를 분석하고, 각 메트릭 별 성능 차이의 잠재적 원인과 실험 사례를 정성적으로 고찰함.

6.1 과제 수행(Task performance)

ChatGPT 팀을 제외한 모든 팀이 제한 시간 내 폭탄 해체에 성공.
과제 완료까지 소요된 평균 라운드는 팀 효율성을 나타냄.
CBS Planner: 완전한 중앙 집중식 조정과 정보 공유로 과제를 6.0 라운드에 해결, 최적 기준선 역할.
MAPPO (최신 다중 에이전트 강화학습 알고리즘): 4500만 타임스텝 훈련 후 평균 11.0 라운드에 과제 완료, 실용적 기준선임.
ChatGPT: 모든 실험에서 과제 완료 실패, 평균 팀 점수 43.3.
GPT-4 기반 팀: 전원 만점 달성, 명시적 신념 상태 표현을 쓴 팀이 더 효율적 (평균 12.3 라운드 vs 28.3 라운드).
GPT-4의 우월한 추론 능력이 ChatGPT 대비 성능 차이에 기여함.
LLM 기반 에이전트는 완전한 제로샷 학습 및 분산 프레임워크임에도 불구하고 뛰어난 팀 협업 수행.
신념 상태 표현 도입은 무효 행동 감소와 ToM (Theory of Mind) 추론 능력 향상을 통해 팀 협업력 개선.

6.2 기본 체화 상호작용(Basic embodied interactions)

성공적인 팀은 각 구성원이 개별 작업(taskwork)을 효과적으로 수행해야 함.
모든 LLM 기반 팀이 기본적인 체화 상호작용 능력을 보이며 무작위 기준선보다 우수함.
LLM 기반 에이전트는 자기성찰(introspection)을 통한 과제 관련 신념 표현도 효율적으로 수행함(표 2 참고).
전 세계 지식(폭탄 위치) 및 상황 모델링(상호작용 이력) 이해에서 모두 80% 이상 높은 성능 달성.

6.3 발현하는 협력 행동(Emergent collaborative behaviors)

LLM 기반 에이전트가 최신 MARL 방법들과 성능을 견주기 위해 팀 궤적 분석과 협력 행동 정성 분석 수행.
GPT-4+Belief 팀은 커뮤니케이션 메시지로 작업 조율, Alpha 에이전트가 자발적으로 팀 리더 역할 및 하위 작업 위임.
인간 팀에서 나타나는 도움, 갈등 해결, 정보 공유 등의 협력 행동도 LLM 팀에서 관찰됨.
대규모 언어 자료 학습 통해 LLM이 특정 협력 과제 훈련 없이도 필수적인 팀워크 기술 습득함을 시사.

6.4 LLM의 체계적 실패(Systematic failures)

LLM 팀의 협력은 최적 기준선 대비 비효율적이며, 몇 가지 반복적인 실패 양상 존재.

6.4.1 장기 컨텍스트(Long-horizon contexts)

장기 맥락 처리 어려움이 첫 번째 병목.
임무 중 유효하지 않은 행동(비인접 방 이동, 보유하지 않은 도구 사용) 출력 발생.
방 연결성 정보 및 도구 할당 정보가 초기 프롬프트에 있지만, 계획 질문에서 멀리 떨어져 LLM이 무시.
GPT-4가 장기 컨텍스트 및 복잡 논리 이해에서 더 우수해 부적절 행동 감소.
신념 상태 도입으로 과제 관련 정보가 입력 프롬프트 내에서 재강조되어 도움됨.

6.4.2 환각(Hallucination)

두 번째 실패 유형은 과제 상태에 대한 환각.
실제 불가능한 행동(해체된 폭탄 수색, 미점검 폭탄 순서 주장) 발생.
불완전한 상호작용 이력과 부분적 환경 관찰로 인해 정확한 신념 형성 불가.
GPT-4+Belief 조건에서 명시적 신념 상태 표현 도입 시 무효 행동 50.7% 감소, 팀 효율성 130% 증가.

6.5 마음 이론 추론(Theory of Mind Inference)

팀워크 핵심 요소인 동료의 정신 상태(신념, 욕구, 의도) 추론 능력 평가.
표 2에 따르면, LLM 기반 에이전트는 1차 및 2차 ToM 추론을 수행.
2차 ToM(타인이 자신에 대해 갖는 신념 추론)에서 GPT-4+Belief가 거의 70% 정확도 기록.
GPT-4가 모든 ToM 단계에서 ChatGPT를 능가하며, 신념 상태 표현이 ToM 능력 향상에 기여.

6.5.1 사례 연구(Case study)

Fig. 2 참고, Alpha가 Room 5 내역 관찰 후 다른 팀원 Charlie가 Room 5 내역을 아는지 1차 신념 추론 질의.
GPT-4 정답: “아니오, Charlie는 현재 Room 6에 있어 Room 5 내역 모름. 이전에 Room 5 있었던 정보만 인지.”
ChatGPT는 이전 상호작용 이력을 고려하지 못함.
2차 ToM: Charlie가 Alpha가 Room 5 내역을 안다는 사실을 아는지 질문.
GPT-4+Belief 정답: “예, 이전 메시지에서 Room 5로 가겠다고 말해 알려주었음.”
ChatGPT 실패.

6.5.2 거짓 신념 하의 추론(Inference under false belief)

통신 시 정보 공유 오류로 인한 거짓 신념 상황에서 ToM 추론 매우 어려움.
예: Alpha가 도달할 수 없는 Room 8로 이동한다고 거짓 정보 전송.
“Charlie가 Alpha가 Room 8 내용을 아는지 아는가?” 질문에 대해,
인간 주석 정답: Alpha는 내용을 모름, 그러나 거짓 메시지 때문에 Charlie가 오해할 수 있고, Charlie의 위치 정보 기반으로 사실을 도출 가능.
GPT-4+Belief 답변: “Charlie는 명시적으로 모르지만, 메시지 때문에 알 것이라 추정 가능.”
LLM은 복잡한 다중 ToM 논리를 온전히 파악하지 못하거나 핵심 실패 사실(도달 실패) 누락하는 경향.

표 2: ToM 추론 정확도 (%)

에이전트	Introspection	1차 ToM	2차 ToM
ChatGPT	79.0	41.9	11.6
GPT-4	80.0	60.0	64.3
GPT-4+Belief	97.2	80.1	69.4

자연어 답변을 실험자가 주석 달고 전역 상호작용 이력 기준 정답과 비교하여 추론 정확도 산출.

7 Discussions

본 연구는 세 가지 주요 통찰을 제시한다.
첫째, 대형 언어 모델(LLM)은 본 연구의 과제 시나리오에서 상당한 수준의 계획 및 협업 능력을 보여준다.
- 적절한 프롬프트 엔지니어링을 통해 LLM 기반 에이전트 팀은 최첨단 다중 에이전트 강화학습(MARL) 알고리즘과 견줄 만한 성과를 낸다.
- MARL 에이전트는 중앙 집중식 평가자와 함께 광범위한 과제별 훈련을 받는 반면, LLM 에이전트는 완전 분산 방식으로 제로샷 환경에서 작업을 수행한다는 점에서 주목할 만하다.
- 이전 연구들이 LLM의 실행 가능한 계획 생성과 세계와의 상호작용 능력의 한계를 지적했지만, 팀 내에서 단계별로 작업을 처리하도록 할 때 꽤 잘 수행한다.
- 특히, 인간 피드백으로부터 강화학습(RLHF)으로 미세조정된 LLM은 다중 에이전트 협업에서 출현하는 사회적 상호작용 기술을 보여주는데, 이는 인간 언어가 주로 학습되고 사용되는 협업적이고 상호작용적인 환경과 유사할 수 있다 (Sap et al., 2023).
둘째, LLM은 장기 문맥 무시와 잘못된 과제 상태 추정(즉, 환각 현상)과 같은 체계적인 실패로 인해 최적의 계획자나 팀 플레이어로는 아직 부족하다.
- 이런 결함은 커뮤니케이션을 통해 빠르게 잘못된 정보를 확산시켜 팀 협업에 심각한 장애를 일으킨다.
- 이를 완화하기 위해, LLM 기반 에이전트가 세계에 대한 명시적인 믿음 상태(belief state)를 유지하도록 시도하였다.
- 결과는 현대 LLM이 관찰을 바탕으로 주어진 믿음 상태 설명을 업데이트할 수 있음을 보여주며, 이는 세계 지식 이해와 상황 모델링 같은 고급 인지 능력의 출현 가능성을 시사한다.
- 또한, 믿음 상태 표현은 에이전트가 과제 관련 핵심 정보를 추적할 수 있는 구조적 틀을 제공하여 팀 성과를 향상시킨다.
셋째, LLM의 마음 이론(Theory of Mind, ToM) 능력은 아직 제한적이며 특히 동적 믿음 상태와 집중적인 커뮤니케이션이 요구되는 상호작용적 팀워크 시나리오에서 그러하다.
- 참고로, 5살 어린이는 2차 ToM 추론을 수행할 수 있지만 (Miller, 2009), 성인은 사회적 상호작용의 복잡성과 모호성으로 인해 의사소통 중 이 능력을 일관되게 사용하지는 않는다 (Keysar et al., 2003).
- 따라서 LLM이 기능적 ToM을 개발하고 자연스럽게 인간과 상호작용하기 위해서는 상당한 연구가 필요하다.
- 본 연구는 기존의 Sally-Anne 테스트와 같은 전통적인 검사 방식을 넘어서는 LLM의 ToM 평가를 위한 새로운 방법론 개발에 대한 예비적인 시도를 나타낸다.

8 Conclusions

본 연구에서는 최근 대규모 언어 모델(LLM)이 팀 과제에서 구현된 상호작용을 수행하는 능력을 평가함.
실험 결과, LLM 기반 에이전트는 최신 강화학습 알고리즘과 견줄 만한 수준으로 복잡한 다중 에이전트 협력 작업을 처리할 수 있음을 확인.
LLM 기반 에이전트 간에 emergent된 협력 행동과 고차원적 마음 이론(Theory of Mind, ToM) 능력이 관찰됨.
이 결과는 LLM이 형식적 추론, 세계 지식, 상황 모델링 및 사회적 상호작용에 있어 잠재적 지능을 가짐을 입증.
또한 LLM 기반 에이전트 성능을 저해하는 두 가지 체계적 실패 사례를 논의하고, 모델 입력에 세계 지식에 관한 명시적 믿음 상태(belief state)를 포함하는 프롬프트 엔지니어링 방법을 제안하여 이 문제를 완화함.
한계점
- 본 연구는 복잡한 과제 시나리오에서 기계 지능을 이해하려는 초기 시도임.
- 향후 개선 방향:
  - OpenAI GPT 외 다른 LLM도 포함하여 더 다양한 모델 평가.
  - 노드 5개, 폭탄 5개로 제한된 단순한 환경을 확장하고 제한을 추가하여 더 난이도 높은 과제에 대한 반응 평가.
  - 현재 3명의 동질적 정책을 가진 팀에서 벗어나, 인간-에이전트 혼합 팀에서의 성능 및 신뢰, 투명성, 공동 학습과 같은 인간중심적 이슈 연구.
- ToM 능력 평가 방식의 한계:
  - 현재는 전역 과제 상태와 상호작용 이력을 아는 인간 평가자가 ToM 질문의 정답을 생성하며, 이는 합리적인 인간 정보 처리 가정을 전제로 한 근사치에 불과.
  - 오해나 거짓 믿음 상황에서 애매모호할 수 있음.
  - 대안으로 각 에이전트가 유지하는 믿음 상태를 정답으로 활용 가능.
  - 제안한 믿음 상태 방법은 자기반성적 믿음(introspective belief)에서 1차 또는 2차 믿음으로 확장할 수 있음.
  - 현재 LLM 에이전트는 자신의 세계 지식에 관한 텍스트 형태의 믿음 상태를 유지 중.
  - 이를 타 에이전트의 세계 지식까지 포함하도록 확장하면, 명시적 1차 ToM 모델이 구현되어, Sally-Anne 스타일 질문 대신 한 에이전트의 1차 믿음과 타 에이전트의 자기반성적 믿음을 직접 비교하여 ToM 능력을 평가할 수 있음.

Hanyong Lee

[논문리뷰] Theory of Mind for Multi-Agent Collaboration via Large Language Models (EMNLP 2023)

1 Introduction

주요 기여

3 Multi-agent Collaboration Tasks

3.1 Task environment

3.2 Text game interface

4 LLM-based Embodied Agents

프레임워크 구성 (그림 1 참고)

4.1 다중 에이전트 통신

4.2 믿음 상태 (Belief State)

수식 표현

5 Experiments

5.1 Setups

5.2 Baselines

5.3 Theory of Mind (ToM) Inferences

6 Results

6.1 과제 수행(Task performance)

6.2 기본 체화 상호작용(Basic embodied interactions)

6.3 발현하는 협력 행동(Emergent collaborative behaviors)

6.4 LLM의 체계적 실패(Systematic failures)

6.4.1 장기 컨텍스트(Long-horizon contexts)

6.4.2 환각(Hallucination)

6.5 마음 이론 추론(Theory of Mind Inference)

6.5.1 사례 연구(Case study)

6.5.2 거짓 신념 하의 추론(Inference under false belief)

표 2: ToM 추론 정확도 (%)

7 Discussions

8 Conclusions

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)

Hanyong Lee

1 Introduction

주요 기여

2 Related Work

3 Multi-agent Collaboration Tasks

3.1 Task environment

3.2 Text game interface

4 LLM-based Embodied Agents

프레임워크 구성 (그림 1 참고)

4.1 다중 에이전트 통신

4.2 믿음 상태 (Belief State)

수식 표현

5 Experiments

5.1 Setups

5.2 Baselines

5.3 Theory of Mind (ToM) Inferences

6 Results

6.1 과제 수행(Task performance)

6.2 기본 체화 상호작용(Basic embodied interactions)

6.3 발현하는 협력 행동(Emergent collaborative behaviors)

6.4 LLM의 체계적 실패(Systematic failures)

6.4.1 장기 컨텍스트(Long-horizon contexts)

6.4.2 환각(Hallucination)

6.5 마음 이론 추론(Theory of Mind Inference)

6.5.1 사례 연구(Case study)

6.5.2 거짓 신념 하의 추론(Inference under false belief)

표 2: ToM 추론 정확도 (%)

7 Discussions

8 Conclusions

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)