[논문리뷰] Theory of Mind for Multi-Agent Collaboration via Large Language Models (EMNLP 2023)
본 연구는 대형언어모델(LLM) 기반 에이전트의 다중 에이전트 협력 및 마음 이론(ToM) 추론 능력을 평가하고, 명시적 신념 상태 표현이 성능과 ToM 정확성을 향상시킨다는 점을 밝혔다.
1 Introduction
- 최근 GPT-4(OpenAI, 2023) 같은 대형 언어 모델(LLM)은 수학, 법률 등 다양한 분야와 작업에서 미세조정이나 특별한 프롬프트 없이도 뛰어난 성능을 보여주고 있음(Bubeck et al., 2023).
- 이러한 발전은 자연어 처리(NLP) 연구의 판도를 크게 변화시켰으며, 도메인별 모델 개발에서 벗어나 LLM의 능력을 평가하고 활용하는 방향으로 초점이 이동함.
- 이 변화는 기계 행동 연구(machine behaviors) 개념과 부합하며, 이는 컴퓨터 과학의 전통적 경계를 넘어서 다양한 과학 분야의 통합적 인사이트를 포함함(Rahwan et al., 2019).
- 본 연구는 팀 과학과 집단 심리학에서 영감을 받아(Hagendorff, 2023), LLM의 다중 에이전트 협력 능력을 평가하는 집단적 기계 행동에 집중함.
- 현대 LLM의 지능 수준에 대한 논쟁이 존재함.
- 일부는 LLM이 주로 언어적 능력에 뛰어나고 언어를 넘는 인지능력(기능적 능력)에는 어려움을 겪는다고 주장함.
- 반면 다른 연구들은 LLM이 공식적 추론(formal reasoning)과 세계 지식 이해(world knowledge comprehension) 같은 인지능력을 보여준다고 밝힘(Mahowald et al., 2023; Bubeck et al., 2023).
- 이에 본 연구는 텍스트 기반 게임을 고안하여 LLM의 구현된 상호작용 능력(예: 미지 환경 탐험, 세계에 대한 신념 유지, 다른 에이전트와 협력)을 평가함.
- 마음 이론(Theory of Mind, ToM)은 타인의 숨겨진 정신 상태를 추론하는 능력으로, 인간의 사회적 상호작용과 협력, 의사소통에 필수적임(Zhang et al., 2012).
- LLM이 인간과 다양한 사회적 상호작용에 점점 더 참여함에 따라, 이들의 사회적 지능 향상은 효과적인 협력을 위해 중요함(Williams et al., 2022; Li et al., 2022).
- 예를 들어, AI 비서는 별도 질문 없이도 과거 경험을 토대로 인간의 선호를 추론할 수 있어야 함.
- 최근 연구에서는 고전적인 ToM 과제를 여러 LLM에 적용하여 현재 모델들(e.g., GPT-4)이 9세 아동 수준에 근접한 성능을 보인다고 보고했음(Kosinski, 2023).
- 그러나 텍스트 기반 ToM 테스트의 기계 지능 평가 유효성에 대해 의문이 제기되고 있음(Ullman, 2023; Sap et al., 2023).
- 본 연구는 다중 에이전트 간의 동적 신념 상태 변화와 풍부한 의도 소통을 포함하는 상호작용적 팀워크 시나리오에서 LLM의 고차원 ToM을 평가하는 새로운 방식을 제안함.
주요 기여
- 강화 학습 및 계획 기반 베이스라인과 비교하여 다중 에이전트 협력 과제에서 LLM 기반 에이전트의 구현된 상호작용 능력 평가
- LLM 에이전트 협력 효율을 제한하는 체계적인 실패 요인 식별 및 이를 완화하기 위해 모델 입력에 세계 지식에 대한 명시적 신념 상태 표현을 포함하는 프롬프트 엔지니어링 방법 제안
- 다중 에이전트 간 동적 신념 상태 진화와 풍부한 의도 소통을 포함하는 상호작용 팀워크 시나리오에서 LLM의 고차원 ToM에 대한 새로운 평가 방법론 제안
2 Related Work
- 대형 언어 모델 (Large language models)
- 방대한 텍스트 말뭉치로 학습된 대형 언어 모델은 텍스트 완성 및 다양한 NLP 응용 분야에서 뛰어난 성능을 보임 (Chowdhery et al., 2022; Thoppilan et al., 2022).
- 최근 연구들은 추론 능력(Bubeck et al., 2023; Wei et al., 2022)과 행동 계획 생성(Liu et al., 2023; Xie et al., 2023)에서의 가능성을 강조하며, 특히 chain-of-thought와 같은 프롬프트 엔지니어링 기법 활용 시 효과적임.
- 그러나 실제 사물과 상호작용할 때 실행 가능한 계획 수립에는 한계가 있음(Ahn et al., 2022; Huang et al., 2022).
- GPT-4는 텍스트 기반 게임과 현실 문제 해결에서 구현된 상호작용 능력이 평가됨(Bubeck et al., 2023).
- Minecraft 환경에서 LLM 기반 구현 에이전트의 잠재력도 탐구됨(Wang et al., 2023b,a).
- 이러한 연구들은 환경 이해, 작업 수행, 행동 계획, 피드백 해석, 적응 등을 수행할 수 있음을 시사.
- 본 연구는 협력적 다중 에이전트 시나리오에서 LLM의 계획 능력을 확장하여 평가하고자 함.
- 마음 이론 (Theory of Mind, ToM)
- LLM의 ToM 능력은 예상치 못한 이동 과제(Unexpected transfer task), 예상치 못한 내용 과제 등 텍스트 기반 변형 테스트를 통해 평가됨(Kosinski, 2023; Moghaddam and Honey, 2023).
- 상위 LLM들은 90% 이상의 사례를 통과하지만, 복잡한 ToM 추론(의사소통, 2차 신념)에서는 어려움을 겪음(Ullman, 2023).
- 본 연구에서는 대화가 이루어지는 팀 작업 중 동적으로 변하는 에이전트의 정신 상태를 다루어, 이전 연구 대비 더 높은 추론 복잡도를 가짐.
- 에이전트 간 정보 교환을 통한 정신 상태 갱신이 관찰과 소통 모두에서 발생함.
- ToM은 다양한 인공 에이전트 성능 향상에 활용됨.
- Lim et al. (2020)은 베이지안 ToM(BToM)과 최적 계획 에이전트를 협력 게임에 통합하여 타인의 의도 명시적 표현이 인간-에이전트 팀 성능 향상에 기여함을 보임.
- SymbolicToM은 그래픽 표현을 활용하여 다중 캐릭터에 대한 명시적 ToM을 언어 모델에 부여함(Sclar et al., 2023).
- ToM을 활용한 다중 에이전트 강화학습에서 협력 증진 연구가 다수 진행됨(Oguntola et al., 2023; Yuan et al., 2021).
- 본 연구는 이러한 선행 연구들을 바탕으로 명시적 신념 표현을 통해 LLM 기반 에이전트의 협력 행동을 향상시키고자 함.
- 다중 에이전트 협력 (Multi-agent collaboration)
- 팀 과학 분야에서는 리더십, 소통, 팀 동역학, 팀 응집력, 공유 상황 인식 등 인간 협력 행동을 수십 년간 연구함(Riedl et al., 2021).
- 하지만 이러한 연구 결과들이 인간-에이전트 하이브리드 팀이나 완전 자동화 팀으로의 전이 가능성은 아직 충분히 탐구되지 않음.
- Park et al. (2023)은 ChatGPT를 사용해 생성 에이전트들이 모인 샌드박스 환경을 운영하며 LLM 기반 에이전트 간 사회적 행동의 출현 가능성을 관찰하였음.
- 해당 연구는 주로 LLM을 활용한 샌드박스 환경 실행 가능성에 초점을 맞추었으며, 기계 지능의 협력 행동에 대한 구체적 분석은 제한적임.
3 Multi-agent Collaboration Tasks
- LLM 기반 구현 에이전트의 능력을 평가하기 위해, 다중 에이전트 환경을 설계하여 수색 및 구조 임무의 협력 및 문제 해결 역학을 시뮬레이션함.
3.1 Task environment
- 3명의 에이전트(Alpha, Bravo, Charlie)가 팀 내 전문가 역할을 수행하며, 탐험되지 않은 환경에 흩어진 색상 코드 폭탄을 찾아 안전하게 해체하는 것이 목표.
- 각 폭탄은 \(m\) 색상의 고유한 단계 시퀀스를 가지며, 올바른 순서의 와이어 커터 사용이 필요함.
- 팀원들은 서로 다른 색상의 커터를 가지고 시작하며, 효율적인 해체를 위해 협력 및 동기화가 요구됨.
- 환경은 연결된 그래프로 구상되어 있으며, \(n\)개의 노드는 방을, 간선은 복도를 나타냄.
- 각 라운드에서 에이전트는 다음 세 가지 행동 중 선택 가능:
- \(n\)개의 방 중 한 곳으로 이동
- 현재 방에 있는 폭탄의 단계 시퀀스 검사
- \(m\)개의 와이어 커터 중 하나 사용
- 행동 공간 크기: \(n + m + 1\)
- 에이전트 관찰은 현재 방 내부와 에이전트 상태로 제한되며, 팀 점수, 현재 방 내용, 팀원 위치 및 사용 가능한 도구 정보를 주기적으로 업데이트 받음.
- 팀은 \(x\)-단계 폭탄을 성공적으로 해체할 때마다 \(10 \times x\) 점수를 획득함.
- 평가 환경:
- 5개의 방 (\(n=5\))과 5개의 폭탄 포함
- 폭탄 종류: 단일 단계 2개, 이중 단계 2개, 삼중 단계 1개
- 단계 색상 수: \(m=3\)
- 최대 점수: 모든 폭탄 해체 시 \(2 \times 10 + 2 \times (2 \times 10) + 3 \times 10 = 90\)
- 팀 성과 측정 지표:
- 팀 점수 (협력의 질)
- 완료까지 걸린 라운드 수 (협력 효율성)
- 실험 종료 조건:
- 모든 폭탄 해체
- 시간 제한 초과 (30 라운드)
- 반복된 행동으로 인한 교착 상태 진입
3.2 Text game interface
- 초기 임무 환경은 Gym API 기반 MARL 에이전트를 위해 구현됨.
- LLM 기반 에이전트와 환경 간 상호작용을 위해 텍스트 인터페이스 통합.
- 각 라운드마다 세 에이전트가 순차적으로 환경과 상호작용하며, 자연어 인터랙션을 통해 관찰을 받고 행동을 수행함.
- 내장된 통신 메커니즘으로 매 라운드 에이전트 간 텍스트 메시지 교환 가능.
- 에이전트는 명시적으로 소통하지 않는 한 서로의 행동 및 결과를 알지 못하며, 이는 Theory of Mind 추론 기회를 제공.
- 규칙 기반 텍스트 인터페이스가 관찰을 자연어 설명으로 변환하고, 채팅 내용을 행동 선택으로 인코딩함.
- 관찰 설명 예: 현재 라운드 번호, 누적 점수, 행동 피드백, 현재 방 내용, 팀원 위치, 교신 메시지 포함
- 행동 인코딩은 키워드 매칭을 통해 진행.
- 비논리적이거나 유효하지 않은 행동 발생 시 인터페이스가 사전 정의된 템플릿에 따른 오류 메시지 출력 (예: “현재 위치 Room X에는 검사할 폭탄이 없습니다.”).
- 그림 1에서는 에이전트 팀과 텍스트 인터페이스를 통한 환경 간 상호작용 예시를 보여줌.
4 LLM-based Embodied Agents
- OpenAI의 최신 챗 컴플리션 모델(gpt-3.5-turbo-0301, gpt-4-0314)을 사용하여 평가를 진행함 (Zheng et al., 2023).
- 이 모델들은 텍스트 기반 게임 환경에서 체화된 에이전트로서 동작하며, 사용자 입력은 게임 인터페이스가 관리함.
- 게임 규칙이 컨텍스트로 제공되며, 매 라운드 현재 상태 관찰 및 과거 상호작용 기록을 바탕으로 행동 선택 및 메시지 출력을 수행.
- LLM 기반 에이전트와 텍스트 게임 인터페이스 간의 상호작용 기록은 모델 입력 최대 크기(4096 tokens)를 넘지 않는 범위 내에서 유지됨.
-
모든 에이전트는 게임 규칙과 이전 두 라운드의 히스토리를 기억함.
-
프레임워크 구성 (그림 1 참고)
- 3명의 LLM 기반 에이전트(Alpha, Bravo, Charlie)
- 텍스트 게임 인터페이스
- 실제 작업 환경
- LLM의 자연어 출력은 텍스트 인터페이스를 통해 추상적인 행동 명령어로 인코딩되어 작업 환경에 전달됨.
- 작업 환경은 에이전트 행동을 처리하고 관찰 결과를 텍스트 인터페이스로 반환함.
- 에이전트는 환경 관찰을 받고 믿음 상태(belief state)를 업데이트하고, 새로운 행동과 메시지를 출력함.
- 3명의 에이전트는 순서대로 인터페이스와 상호작용함.
-
4.1 다중 에이전트 통신
- 협동적 임무 수행에 적합하도록, 팀 내에서 텍스트 메시지를 공유하는 통신 채널 구현.
- 보낸 메시지는 즉시 모든 팀원에게 방송되며 다음 관찰에 반영됨.
- 에이전트들은 메시지 전송을 번갈아 하므로, 동료들의 답변은 다음 라운드 관찰에서 확인 가능.
- 예) Alpha가 분리 행동을 지시 후 Bravo가 피드백 제공.
-
4.2 믿음 상태 (Belief State)
- 모델 입력 크기 제한으로 전체 상호작용 기록 유지가 불가하나, 팀은 주요 장기 정보(방 내용, 폭탄 시퀀스 등)를 추적해야 함.
- 이를 위해 명시적 믿음 상태를 나타내는 프롬프트 엔지니어링 기법 제안.
- 에이전트는 환경 관찰을 받으면, 핵심 작업 관련 정보를 저장하는 텍스트 형태의 믿음 상태를 업데이트.
- 이 업데이트된 믿음 상태는 상호작용 기록에 보관되어 이후 행동 계획에 활용됨.
- 예) 폭탄 1 검사 후 Alpha는 폭탄 시퀀스를 미상에서 빨강으로 업데이트하고 이를 유지.
- 믿음 상태 업데이트는 chain-of-thought prompting 기법(Wei et al., 2022)에서 영감을 받음.
- 초기 믿음 상태 설명은 포맷과 표현을 보여주기 위해 제공되나, 업데이트 규칙은 완전히 제로샷이며 LLM의 상식 및 임무 컨텍스트에 의존함.
-
수식 표현
- 최대 모델 입력 토큰 수: \(4096 \text{ tokens}\)
- 행동 및 메시지 선택 시 현재 상태 관찰 및 과거 대화 기록을 사용:
5 Experiments
- 본 연구에서는 3인 팀으로 구성된 LLM 기반 육체화 에이전트를 체계적으로 분해(ablate)하여 협력 과제 수행 능력을 평가함.
- 두 가지 모듈을 조작:
- LLM 모델 (GPT-4 또는 ChatGPT)
- 신념 상태(belief representation)의 유무
- 총 4가지 실험 조건을 구성.
5.1 Setups
- 각 실험 시도 시작 시 3인 팀 에이전트를 구성하고 작업 환경(task environment)을 초기화, 시작 위치, 방 연결, 폭탄 분포 및 순서를 무작위로 설정.
- 에이전트는 초기 관찰에 기반해 행동 선택 및 통신 메시지를 차례로 수행.
- 각 에이전트는 부분 관찰(partial observation)만을 갖고, 상호 커뮤니케이션이 유일한 정보 확산 수단임 (완전 분산 팀).
- LLM 기반 에이전트는 모델의 온도 파라미터를 0으로 설정하고, 결과 안정성을 위해 3회 반복 측정을 수행.
- 각 시도 시간은 과제 부담 및 모델에 따라 5분에서 120분 사이로 변동.
5.2 Baselines
- LLM 에이전트 외에 MARL 및 계획(planning) 방법 기반 베이스라인 포함.
- MARL:
- MultiAgent Proximal Policy Optimization (MAPPO) 사용 (Yu et al., 2022).
- SMAC 환경 기반 기본 하이퍼파라미터 활용해 학습.
- 상태 기반 Actor-Critic 방식으로, 공유된 actor와 critic 모델을 사용해 에이전트 불변성 유지 및 성능 향상.
- 팀 보상: x-단계 폭탄 해체 성공 시 \(10 \times x\) 점수 부여.
- 중간 보상: 올바른 와이어커터 사용 시 +1, 잘못 사용해 폭탄 폭발 시 -1 부여하여 학습 효율 개선.
- MARL 에이전트도 팀원 위치 관찰 가능.
- 계획(Planning):
- Conflict-Based Search (CBS) 알고리즘(Sharon et al., 2015)을 MultiAgent Path-Finding (MAPF) 문제에 적용.
- 작업 할당(task assignment) 및 충돌 없는 경로 생성.
- 사용자 정의 보상 함수에 따른 점수 최대화를 목표로 함 (즉, 폭탄 해체 성공 시 \(10 \times x\) 점수).
- 작업을 하이퍼파라미터(한 서브태스크 당 액션 수)를 이용해 서브태스크로 분할하여 순차 처리.
- CBS는 이진 제약 트리를 최우선 탐색(best-first search)으로 확장하여 서브태스크의 시간 및 우선순위 제약 해결.
- 5개의 폭탄을 하나의 서브태스크로 처리하면 점수에 대한 완전성 및 최적성 보장 가능.
에이전트 유형 | 점수 (평균 ± 표준편차) | 완료까지 라운드 평균 | 유효 행동 비율 |
---|---|---|---|
ChatGPT | \(43 \pm 4.7\) | \(30.0 \pm 0.0\) | 62.5% |
GPT-4 | \(90 \pm 0.0\) | \(28.3 \pm 2.6\) | 71.8% |
GPT-4 + Belief | \(90 \pm 0.0\) | \(12.3 \pm 2.0\) | 86.1% |
MAPPO | \(90 \pm 0.0\) | \(11.0 \pm 0.0\) | N/A |
CBS Planner | \(90 \pm 0.0\) | \(6.0 \pm 0.0\) | N/A |
Random | \(38 \pm 14.7\) | \(30.0 \pm 0.0\) | N/A |
- 점수(score): 모든 실험 시도에서 팀 점수 평균.
- 라운드 수(rounds): 과제 완수까지 걸린 평균 라운드 수.
- 유효 행동 비율: LLM 출력 중 과제 규칙에서 허용된 행동으로 인코딩 가능한 비율.
5.3 Theory of Mind (ToM) Inferences
- 주 과제 수행 도중, LLM 기반 에이전트는 Theory of Mind (ToM) 추론도 수행하도록 함.
- ToM 추론은 세 가지 수준으로 분류:
- 내성(Introspection): 에이전트가 자신의 정신 상태를 서술할 수 있는 능력.
- 1차 ToM 추론: 타인의 숨겨진 정신 상태를 추정하는 능력.
- 2차 ToM 추론: 타인이 자신의 정신 상태에 대해 어떻게 믿고 있는지를 추론하는 능력.
- ToM 질문 설계는 Sally–Anne 테스트에서 영감을 받음.
- 에이전트가 행동을 할 때마다, 해당 행동의 결과(상태 변화 또는 신념 변화)에 대해 다른 에이전트가 인지하고 있는지 질문함.
- 예: 폭탄이 해체되었는지, 특정 방에 폭탄이 있다는 정보가 다른 에이전트에게 전달되었는지 등.
- ToM 능력이 있는 에이전트는 자신이 결과를 알고 있더라도 대상 에이전트가 잘못된 신념을 가질 수 있음을 인지해야 함.
- ToM 질문에 대한 답변의 정합성을 평가하기 위해 인간 평가자가 완전한 상호작용 및 통신 기록을 기준으로 주관적 판단 수행.
- 판단 기준: 대상 에이전트가 1) 현재 방에 있는지, 2) 과거에 해당 방에 가본 적이 있는지, 3) 결과가 대상 에이전트에게 전달되었는지 여부.
- 고차원 ToM 추론은 커뮤니케이션에 의존해 모호함이 있을 수 있으므로, 평가자 간 토론을 통해 평가 기준 통일함.
- 예시: GPT-4 + Belief 조건은 긍정적인 ToM 추론을 보이고, ChatGPT는 부정적인 ToM 추론 결과를 보임(그림 2 참조).
- LLM 에이전트 간 협업 및 실수 사례(예: 장기 문맥 무시)도 관찰됨.
6 Results
- 본 섹션에서는 주요 실험 결과를 분석하고, 각 메트릭 별 성능 차이의 잠재적 원인과 실험 사례를 정성적으로 고찰함.
6.1 과제 수행(Task performance)
- ChatGPT 팀을 제외한 모든 팀이 제한 시간 내 폭탄 해체에 성공.
- 과제 완료까지 소요된 평균 라운드는 팀 효율성을 나타냄.
- CBS Planner: 완전한 중앙 집중식 조정과 정보 공유로 과제를 6.0 라운드에 해결, 최적 기준선 역할.
- MAPPO (최신 다중 에이전트 강화학습 알고리즘): 4500만 타임스텝 훈련 후 평균 11.0 라운드에 과제 완료, 실용적 기준선임.
- ChatGPT: 모든 실험에서 과제 완료 실패, 평균 팀 점수 43.3.
- GPT-4 기반 팀: 전원 만점 달성, 명시적 신념 상태 표현을 쓴 팀이 더 효율적 (평균 12.3 라운드 vs 28.3 라운드).
- GPT-4의 우월한 추론 능력이 ChatGPT 대비 성능 차이에 기여함.
- LLM 기반 에이전트는 완전한 제로샷 학습 및 분산 프레임워크임에도 불구하고 뛰어난 팀 협업 수행.
- 신념 상태 표현 도입은 무효 행동 감소와 ToM (Theory of Mind) 추론 능력 향상을 통해 팀 협업력 개선.
6.2 기본 체화 상호작용(Basic embodied interactions)
- 성공적인 팀은 각 구성원이 개별 작업(taskwork)을 효과적으로 수행해야 함.
- 모든 LLM 기반 팀이 기본적인 체화 상호작용 능력을 보이며 무작위 기준선보다 우수함.
- LLM 기반 에이전트는 자기성찰(introspection)을 통한 과제 관련 신념 표현도 효율적으로 수행함(표 2 참고).
- 전 세계 지식(폭탄 위치) 및 상황 모델링(상호작용 이력) 이해에서 모두 80% 이상 높은 성능 달성.
6.3 발현하는 협력 행동(Emergent collaborative behaviors)
- LLM 기반 에이전트가 최신 MARL 방법들과 성능을 견주기 위해 팀 궤적 분석과 협력 행동 정성 분석 수행.
- GPT-4+Belief 팀은 커뮤니케이션 메시지로 작업 조율, Alpha 에이전트가 자발적으로 팀 리더 역할 및 하위 작업 위임.
- 인간 팀에서 나타나는 도움, 갈등 해결, 정보 공유 등의 협력 행동도 LLM 팀에서 관찰됨.
- 대규모 언어 자료 학습 통해 LLM이 특정 협력 과제 훈련 없이도 필수적인 팀워크 기술 습득함을 시사.
6.4 LLM의 체계적 실패(Systematic failures)
- LLM 팀의 협력은 최적 기준선 대비 비효율적이며, 몇 가지 반복적인 실패 양상 존재.
6.4.1 장기 컨텍스트(Long-horizon contexts)
- 장기 맥락 처리 어려움이 첫 번째 병목.
- 임무 중 유효하지 않은 행동(비인접 방 이동, 보유하지 않은 도구 사용) 출력 발생.
- 방 연결성 정보 및 도구 할당 정보가 초기 프롬프트에 있지만, 계획 질문에서 멀리 떨어져 LLM이 무시.
- GPT-4가 장기 컨텍스트 및 복잡 논리 이해에서 더 우수해 부적절 행동 감소.
- 신념 상태 도입으로 과제 관련 정보가 입력 프롬프트 내에서 재강조되어 도움됨.
6.4.2 환각(Hallucination)
- 두 번째 실패 유형은 과제 상태에 대한 환각.
- 실제 불가능한 행동(해체된 폭탄 수색, 미점검 폭탄 순서 주장) 발생.
- 불완전한 상호작용 이력과 부분적 환경 관찰로 인해 정확한 신념 형성 불가.
- GPT-4+Belief 조건에서 명시적 신념 상태 표현 도입 시 무효 행동 50.7% 감소, 팀 효율성 130% 증가.
6.5 마음 이론 추론(Theory of Mind Inference)
- 팀워크 핵심 요소인 동료의 정신 상태(신념, 욕구, 의도) 추론 능력 평가.
- 표 2에 따르면, LLM 기반 에이전트는 1차 및 2차 ToM 추론을 수행.
- 2차 ToM(타인이 자신에 대해 갖는 신념 추론)에서 GPT-4+Belief가 거의 70% 정확도 기록.
- GPT-4가 모든 ToM 단계에서 ChatGPT를 능가하며, 신념 상태 표현이 ToM 능력 향상에 기여.
6.5.1 사례 연구(Case study)
- Fig. 2 참고, Alpha가 Room 5 내역 관찰 후 다른 팀원 Charlie가 Room 5 내역을 아는지 1차 신념 추론 질의.
- GPT-4 정답: “아니오, Charlie는 현재 Room 6에 있어 Room 5 내역 모름. 이전에 Room 5 있었던 정보만 인지.”
- ChatGPT는 이전 상호작용 이력을 고려하지 못함.
- 2차 ToM: Charlie가 Alpha가 Room 5 내역을 안다는 사실을 아는지 질문.
- GPT-4+Belief 정답: “예, 이전 메시지에서 Room 5로 가겠다고 말해 알려주었음.”
- ChatGPT 실패.
6.5.2 거짓 신념 하의 추론(Inference under false belief)
- 통신 시 정보 공유 오류로 인한 거짓 신념 상황에서 ToM 추론 매우 어려움.
- 예: Alpha가 도달할 수 없는 Room 8로 이동한다고 거짓 정보 전송.
- “Charlie가 Alpha가 Room 8 내용을 아는지 아는가?” 질문에 대해,
- 인간 주석 정답: Alpha는 내용을 모름, 그러나 거짓 메시지 때문에 Charlie가 오해할 수 있고, Charlie의 위치 정보 기반으로 사실을 도출 가능.
- GPT-4+Belief 답변: “Charlie는 명시적으로 모르지만, 메시지 때문에 알 것이라 추정 가능.”
- LLM은 복잡한 다중 ToM 논리를 온전히 파악하지 못하거나 핵심 실패 사실(도달 실패) 누락하는 경향.
표 2: ToM 추론 정확도 (%)
에이전트 | Introspection | 1차 ToM | 2차 ToM |
---|---|---|---|
ChatGPT | 79.0 | 41.9 | 11.6 |
GPT-4 | 80.0 | 60.0 | 64.3 |
GPT-4+Belief | 97.2 | 80.1 | 69.4 |
- 자연어 답변을 실험자가 주석 달고 전역 상호작용 이력 기준 정답과 비교하여 추론 정확도 산출.
7 Discussions
-
본 연구는 세 가지 주요 통찰을 제시한다.
- 첫째, 대형 언어 모델(LLM)은 본 연구의 과제 시나리오에서 상당한 수준의 계획 및 협업 능력을 보여준다.
- 적절한 프롬프트 엔지니어링을 통해 LLM 기반 에이전트 팀은 최첨단 다중 에이전트 강화학습(MARL) 알고리즘과 견줄 만한 성과를 낸다.
- MARL 에이전트는 중앙 집중식 평가자와 함께 광범위한 과제별 훈련을 받는 반면, LLM 에이전트는 완전 분산 방식으로 제로샷 환경에서 작업을 수행한다는 점에서 주목할 만하다.
- 이전 연구들이 LLM의 실행 가능한 계획 생성과 세계와의 상호작용 능력의 한계를 지적했지만, 팀 내에서 단계별로 작업을 처리하도록 할 때 꽤 잘 수행한다.
- 특히, 인간 피드백으로부터 강화학습(RLHF)으로 미세조정된 LLM은 다중 에이전트 협업에서 출현하는 사회적 상호작용 기술을 보여주는데, 이는 인간 언어가 주로 학습되고 사용되는 협업적이고 상호작용적인 환경과 유사할 수 있다 (Sap et al., 2023).
- 둘째, LLM은 장기 문맥 무시와 잘못된 과제 상태 추정(즉, 환각 현상)과 같은 체계적인 실패로 인해 최적의 계획자나 팀 플레이어로는 아직 부족하다.
- 이런 결함은 커뮤니케이션을 통해 빠르게 잘못된 정보를 확산시켜 팀 협업에 심각한 장애를 일으킨다.
- 이를 완화하기 위해, LLM 기반 에이전트가 세계에 대한 명시적인 믿음 상태(belief state)를 유지하도록 시도하였다.
- 결과는 현대 LLM이 관찰을 바탕으로 주어진 믿음 상태 설명을 업데이트할 수 있음을 보여주며, 이는 세계 지식 이해와 상황 모델링 같은 고급 인지 능력의 출현 가능성을 시사한다.
- 또한, 믿음 상태 표현은 에이전트가 과제 관련 핵심 정보를 추적할 수 있는 구조적 틀을 제공하여 팀 성과를 향상시킨다.
- 셋째, LLM의 마음 이론(Theory of Mind, ToM) 능력은 아직 제한적이며 특히 동적 믿음 상태와 집중적인 커뮤니케이션이 요구되는 상호작용적 팀워크 시나리오에서 그러하다.
- 참고로, 5살 어린이는 2차 ToM 추론을 수행할 수 있지만 (Miller, 2009), 성인은 사회적 상호작용의 복잡성과 모호성으로 인해 의사소통 중 이 능력을 일관되게 사용하지는 않는다 (Keysar et al., 2003).
- 따라서 LLM이 기능적 ToM을 개발하고 자연스럽게 인간과 상호작용하기 위해서는 상당한 연구가 필요하다.
- 본 연구는 기존의 Sally-Anne 테스트와 같은 전통적인 검사 방식을 넘어서는 LLM의 ToM 평가를 위한 새로운 방법론 개발에 대한 예비적인 시도를 나타낸다.
8 Conclusions
- 본 연구에서는 최근 대규모 언어 모델(LLM)이 팀 과제에서 구현된 상호작용을 수행하는 능력을 평가함.
- 실험 결과, LLM 기반 에이전트는 최신 강화학습 알고리즘과 견줄 만한 수준으로 복잡한 다중 에이전트 협력 작업을 처리할 수 있음을 확인.
- LLM 기반 에이전트 간에 emergent된 협력 행동과 고차원적 마음 이론(Theory of Mind, ToM) 능력이 관찰됨.
- 이 결과는 LLM이 형식적 추론, 세계 지식, 상황 모델링 및 사회적 상호작용에 있어 잠재적 지능을 가짐을 입증.
-
또한 LLM 기반 에이전트 성능을 저해하는 두 가지 체계적 실패 사례를 논의하고, 모델 입력에 세계 지식에 관한 명시적 믿음 상태(belief state)를 포함하는 프롬프트 엔지니어링 방법을 제안하여 이 문제를 완화함.
- 한계점
- 본 연구는 복잡한 과제 시나리오에서 기계 지능을 이해하려는 초기 시도임.
- 향후 개선 방향:
- OpenAI GPT 외 다른 LLM도 포함하여 더 다양한 모델 평가.
- 노드 5개, 폭탄 5개로 제한된 단순한 환경을 확장하고 제한을 추가하여 더 난이도 높은 과제에 대한 반응 평가.
- 현재 3명의 동질적 정책을 가진 팀에서 벗어나, 인간-에이전트 혼합 팀에서의 성능 및 신뢰, 투명성, 공동 학습과 같은 인간중심적 이슈 연구.
- ToM 능력 평가 방식의 한계:
- 현재는 전역 과제 상태와 상호작용 이력을 아는 인간 평가자가 ToM 질문의 정답을 생성하며, 이는 합리적인 인간 정보 처리 가정을 전제로 한 근사치에 불과.
- 오해나 거짓 믿음 상황에서 애매모호할 수 있음.
- 대안으로 각 에이전트가 유지하는 믿음 상태를 정답으로 활용 가능.
- 제안한 믿음 상태 방법은 자기반성적 믿음(introspective belief)에서 1차 또는 2차 믿음으로 확장할 수 있음.
- 현재 LLM 에이전트는 자신의 세계 지식에 관한 텍스트 형태의 믿음 상태를 유지 중.
- 이를 타 에이전트의 세계 지식까지 포함하도록 확장하면, 명시적 1차 ToM 모델이 구현되어, Sally-Anne 스타일 질문 대신 한 에이전트의 1차 믿음과 타 에이전트의 자기반성적 믿음을 직접 비교하여 ToM 능력을 평가할 수 있음.
Comments