[논문리뷰] Rethinking the Bounds of LLM Reasoning- Are Multi-Agent Discussions the Key? (ACL 2024)

13 minute read

최근 LLM(대형 언어 모델) 연구에서 다중 에이전트 토론이 추론 능력을 향상시킨다는 주장에 대한 재평가를 통해, 단일 에이전트 LLM이 강력한 프롬프트를 사용하면 다중 에이전트 방식과 비슷한 성능을 낼 수 있음을 보여 주었다.

1 Introduction

대규모 언어 모델(LLM)은 언어 이해 및 생성에서 강력한 능력을 보여준다 (OpenAI, 2022, 2023; Touvron et al., 2023a; Zhang et al., 2022a; Chowdhery et al., 2022; Team et al., 2023).
그러나 LLM은 허위 정보와 추론 관점 오류와 같은 모델의 한계로 인해 추론 작업에서 부족하다 (Xu et al., 2023a).
이러한 문제를 극복하기 위해 다수의 연구가 인간의 추론을 시뮬레이션하는 방법을 제안하였다.
‘Society of Mind’ (Minsky, 1988)에서 영감을 받아, Debate (Du et al., 2023), MAD (Liang et al., 2023), ReConcile (Chen et al., 2023a)와 같은 다중 에이전트 토론 프레임워크가 여러 AI 에이전트를 포함하는 새로운 접근법을 제시한다.
LLM에 의해 구동되는 이들 에이전트는 주어진 주제에 대해 자율적으로 토론에 참여하여 인간의 토론 과정을 모방함으로써 LLM의 추론 능력을 향상시킨다.
대부분의 다중 에이전트 토론 프레임워크는 작업별 예제를 활용하여 성능을 더 개선하며, 이를 ‘데모스트레이션’이라고 한다 (Min et al., 2022).
이러한 인사이트는 LLM이 맥락에서의 데모스트레이션을 통해 학습할 수 있음을 기반으로 한다 (Brown et al., 2020).
이들 토론 프레임워크는 모두 Chain-of-Thought (Wei et al., 2022)와 같은 단일 에이전트를 활용한 기존 방법보다 우수하다고 주장한다.
그림 1은 FOLIO-wiki 데이터셋에서 단일 에이전트 설정과 다중 에이전트 토론 프레임워크 간의 비교를 나타낸다.
‘Demo’는 테스트된 단일 에이전트가 데모스트레이션 사례를 제공받았음을, ‘Q-Desc.’는 상세한 질문 설명을 제공받았음을, ‘Direct’는 데모스트레이션 없이 단일 에이전트를 의미한다.
단일 에이전트 ‘Demo’는 모든 토론 프레임워크의 성능 상한선과 유사한 성능을 달성하는 경향이 있으며, 이러한 결과는 이전 주장이 완전히 성립하지 않음을 시사한다.
본 논문에서는 체계적인 실험을 통해 심층 분석을 수행한다.
새롭게 떠오르는 주제로서, 사용 가능한 토론 프레임워크의 수는 여전히 제한적이다.
단일 에이전트 설정과 토론 프레임워크 간의 포괄적이고 상세한 비교를 위해, CMD라는 새로운 토론 프레임워크를 제안하며, 이는 인간 그룹 토론 과정을 모방한다.
우리의 토론 파이프라인은 그림 2에 나타난 여러 설계 요소를 고려한다 (자세한 사항은 2.1 절 참조).
또한, 우리는 여러 구성 안에서 표준 추론 벤치마크(ECQA (Aggarwal et al., 2021), GSM8k (Cobbe et al., 2021), FOLIOwiki (Han et al., 2022; Zhang et al., 2023b))를 대상으로 다양한 실험을 수행하였다.
다중 에이전트 토론이 에이전트에 충분히 강력한 프롬프트가 제공될 때 반드시 추론을 개선하지는 않음을 발견하였다.
또한 실험 결과에 따르면, 데모스트레이션 없이 다중 에이전트 토론이 단일 에이전트 설정을 초월하는 경향이 있다.
우리는 또한 Bard (Anil et al., 2023)와 같은 약한 LLM이 Gemini Pro (Team et al., 2023)와 같은 강한 LLM의 도움을 받아 성능을 향상시킬 수 있음을 발견하였다.
결론적으로, 우리의 분석은 추론에서 다중 에이전트 토론을 사용하는 것이 언제 효과적인지를 이해하는 새로운 방법을 제공한다.
우리의 기여는 다음과 같다:
1. 인간 그룹 토론 과정을 시뮬레이션하는 새로운 다중 에이전트 토론 프레임워크 CMD를 제안한다.
2. 강력한 프롬프트를 가진 단일 에이전트가 동등하게 강력한 프롬프트를 사용하는 다중 에이전트 토론의 성능에 맞춘다는 관찰을 한다.
3. 두 가지 일반적인 유형의 토론 오류: 판별 오류 및 잘못된 답변 전파를 식별한다.
4. 데모스트레이션이 없을 경우 다중 에이전트 토론이 단일 에이전트를 초월하는 경향이 있다.
5. 다중 LLM 다중 에이전트 토론에서는 강한 LLM이 약한 LLM의 성능 향상에 기여할 수 있다.

2.1 What is Multi-Agent Discussion?

정의
- 다수의 에이전트가 자율적인 대화에 참여하는 상호작용 설정.
주요 요소
- Kick-start Prompt
  - 배경 지식 및 논의 주제를 제공.
- 에이전트
  - 다양한 LLM(대형 언어 모델) 기반으로 운영됨.
- 알고리즘
  - 논의의 특정 규칙 정의:
    - 라운드 수
    - 의사 결정 방식 (판사 판단 혹은 투표)
    - 논의 구조 (계층적 등)
- 결과
  - 최종 결정의 표현 및 발표 방식 설명.
추가 정보
- 부록 B에서 프롬프트 관련 메커니즘 및 논의에 대한 대칭적 관점 제공.
라운드 예시
- 여러 에이전트가 제안된 명제에 대해 참/거짓을 주장하며 서로 의견 교환.
- 각 라운드에서 각 그룹의 의견을 투표를 통해 결정.
CMD 프레임워크 개요
- 그룹 대화 및 최종 결정 프로세스에 대한 시각적 설명 제공.

2.2 Existing Discussion Frameworks

다수의 에이전트 토론 프레임워크에 대한 기존 연구가 여러 일반적인 토론 패러다임을 다룸
본 논문에서는 다음의 토론 프레임워크를 실험 대상으로 고려함:
- Debate (Du et al., 2023)
  - 에이전트 간의 간단한 턴 기반 토론을 재현
  - 모든 에이전트가 할당된 작업을 다루도록 지시받고, 그들의 응답이 다음 라운드의 입력에 포함됨
  - 일반적으로 3라운드의 토론 진행
- MAD (Liang et al., 2023)
  - 두 참가자가 반대 관점에서 작업에 대해 토론하여 발산적 사고 도입
  - 심판이 개입하여 어떤 관점이 더 그럴듯한지 또는 추가 토론이 필요한지 평가
  - 합의에 도달하거나 심판이 특정 해결책을 선호할 때까지 반복
- ReConcile (Chen et al., 2023a)
  - 여러 LLM으로 구동되는 원탁 토론 구현
  - 가중 투표 시스템을 통해 결정 도출
  - 에이전트가 자신의 답변에 대한 신뢰 수준을 제공하며, 이를 가중치로 사용하여 투표
  - 최종 결정을 도출함
이러한 발전에도 불구하고, 다수의 에이전트 프레임워크 수는 여전히 제한적이며, 가장 보편적인 토론 형태인 그룹 토론은 고려되지 않음

3 CMD: Conquer-and-Merge Discussion

연구의 차별성:
- 이전 연구에서는 그룹 토론 기반 프레임워크 제안 부족.
- CMD라는 새로운 프레임워크 도입.
CMD 프레임워크의 구성:
- 여러 에이전트 $n$명 ($A= {Ai}^n_{i=1}$)이 질문 $Q$에 대해 토론.
- 각 에이전트 $$Ai$는 LLM$Li$$로 구동.
상태 기록:
- 응답 역사 저장을 위한 배열 $H$ 사용.
토론 구조:
- 에이전트들은 $R$라운드 동안 논의.
- 각 턴 $r$에서 모든 에이전트 $Ai$는 응답 $(v_i, e_i) = CMD(H \vert Q,r)$ 생성.
  - $v_i$: 관점
  - $e_i$: 설명
자세한 내용:
- 세부 사항은 부록 C에서 확인 가능.

3.1 Message-Passing Algorithm

목적: 에이전트 간의 통신 동기화를 위한 메시지 전달 알고리즘 제안
문제:
- 기존의 다중 에이전트 토론 프레임워크는 특정 시나리오에만 집중
- 다양한 토론에서 에이전트 메시지를 동기화할 수 있는 보편적인 알고리즘 부재
- 토론 형태와 아키텍처가 다양하여 에이전트들이 서로 다른 LLM(대규모 언어 모델)을 사용
- 각 LLM은 서로 다른 호출 프로토콜을 가짐
해결 방법: 멀티스레드 방식을 활용한 메시지 전달 알고리즘 설계
- 수신 맵 M: 각 에이전트가 다음 턴에 받을 메시지를 저장
- 메시지 처리:
  - 에이전트 $A_i$에서 메시지 $m_j$를 확인
  - 수신자 $A_r$ 확인 후, 모든 에이전트 $A_k \in A_r$에 $m_j$를 수신 맵 M에 추가
- 다음 턴 시작 시:
  - 수신 맵 M에 저장된 메시지를 해당 에이전트에 자동으로 전송
참고: 자세한 의사 코드는 부록 C.4 참조

3.2 Three Stages of CMD

CMD는 다음 세 가지 단계로 구성됨:
- 그룹 토론
- 투표
- 최종 결정 단계
1단계: 그룹 토론
- 에이전트 $A$는 균등한 크기로 그룹 $G = \{G_k\}^t_{k=1}$으로 나누어짐.
- 모든 에이전트는 토론을 통해 작업 $Q$를 해결하도록 요청받음.
- 각 에이전트 $A_i \in G_k$는 마지막 라운드에서 $A_j \in G_k$ (단, $j \neq i$)의 모든 답변과 설명을 접근할 수 있음.
- 반면, 다른 그룹의 에이전트들은 오직 답변만 확인 가능.
- $R$ 라운드 토론 후, CMD는 투표 단계로 이동.
2단계: 투표
- 토론이 최대 라운드에 도달하면 모든 에이전트 $A$가 투표 시작.
- 각 에이전트의 투표는 동등하게 취급되며, 결과는 다수결로 결정됨.
- 동률이 발생할 경우, CMD는 3단계로 전환.
- 그렇지 않으면 토론 과정은 공식적으로 종료됨.
3단계: 최종 결정
- 동률 발생 시, 비서 역할을 하는 추가 에이전트 $S$가 최종 결정을 내림.
- 각 제안된 답변은 동일한 의견을 가진 에이전트로부터 선택된 설명과 함께 제공되어 비서에게 전달됨.
- 최종 결정은 $Vote(A)$ 또는 $S(V, O \vert Q)$로 이루어지며, 여기서 $V = \{v_i\}^n$는 의견 집합, $O = \{o_i\}^n$는 설명 집합임.

4 Experimental Setups

실험에서는 단일 에이전트 설정을 네 가지 다중 에이전트 토론 프레임워크와 비교:
- Debate
- MAD
- ReConcile
- CMD
다양한 프롬프트 조건 하에서 진행됨.
해당 방법들은 이전 섹션 2.2 및 3에서 소개됨.

4.1 Implementation Details and Metrics

실험은 세 가지 고급 LLM(대형 언어 모델)을 사용하여 수행됨:
- ChatGPT-3.5 (OpenAI, 2022)
- Gemini Pro (Team et al., 2023)
- Bard (Anil et al., 2023)
ChatGPT-3.5는 Azure OpenAI에서 호스팅되는 gpt-3.5-turbo (0613) 인스턴스 사용.
Bard는 PaLM2 아키텍처를 통해 chat2의 bison-001 모델로 표현됨.
Gemini Pro 및 Bard 인터페이스는 Google MakerSuite API를 통해 운영됨.
일관성을 위해 모든 LLM에서 대화 온도는 0.25로 설정됨.
모든 다중 에이전트 논의 프레임워크에서 최대 논의 라운드 수는 3으로 설정됨.
모든 작업의 성능 평가는 정확도를 사용하여 측정됨.

4.2 Downstream Tasks

프레임워크는 여러 추론 과제에서 구현됨.
- 일반 상식 추론 과제 포함.
- 두 가지 연역적 추론 과제:
  1. ECQA (Aggarwal et al., 2021)
    - 일반 상식 지식 중심의 QA 데이터셋.
  2. GSM8K (Cobbe et al., 2021)
    - 수학 단어 문제로 구성된 기준.
  3. FOLIO-wiki (Zhang et al., 2023b)
    - 상징적 및 자연어 연역 추론을 위해 FOLIO (Han et al., 2022)에서 적응된 데이터셋.
컴퓨팅 자원에 의해 제한된 사항을 반영.
이전 연구(Du et al., 2023; Chen et al., 2023a; Liang et al., 2023)에서 설정된 선례를 따름.
선택적 샘플링:
- ECQA 및 GSM8K의 테스트 세트에서 100개의 인스턴스 샘플링.
심층 분석:
- FOLIO-wiki 데이터셋의 모든 460개 사례에 대해 포괄적인 실험 수행.
- 결함이 있는 사례를 제거하여 결과의 진정성을 확보.

5 Experiments on Single LLM

실험 개요: 단일 LLM인 ChatGPT-3.5를 사용하여 실험 수행.
FOLIO-wiki 데이터셋 분석 (5.1):
- 단일 에이전트 설정과 다중 에이전트 토론 분석.
다른 데이터셋 확장 (5.2):
- GSM8K와 ECQA 데이터셋을 대상으로 추가 실험 진행.
토론에서의 일반적인 실수 조사 (5.3):
- 사례 연구를 통해 토론에서 발생하는 흔한 실수 분석.
결과 요약 (5.4):
- 실험 결과를 종합하여 주요 통찰 도출.

5.1 Analysis of FOLIO-wiki Dataset

목적: 멀티 에이전트 논의가 FOLIO-wiki 데이터셋에서 가장 강력한 프롬프트를 사용하는 단일 에이전트보다 효과적인지 분석.
프롬프트 구성:
- 질문 설명 (Q-Desc.): 자세한 질문 배경 제공.
- 답변 형식 설명 (A-Desc.): 에이전트의 응답 방식 지침.
- 작업 특화 시연 (Demo.): 질문과 답변 쌍의 예시 제시.
단일 에이전트 성능 평가:
- 다양한 프롬프트 구성 요소 평가 (표 1 참조).
- 자세한 질문 설명 및 시연의 포함이 추론 능력 향상에 기여.
- 시연이 성능에 가장 큰 영향을 미치는 요소로 확인됨.
멀티 에이전트 논의 분석:
- 시연 및 자세한 질문 설명이 멀티 에이전트 논의 강화.
- 대부분의 멀티 에이전트 논의는 시연이 도입되었을 때 단일 에이전트 성과를 초과하지 않음.
- CMD가 단일 에이전트와 다른 멀티 에이전트 논의 체계보다 우수한 성능을 보임.
결론:
- 강력한 단일 에이전트가 논의 체계와 비슷한 성과를 내며, 적절한 프롬프트 엔지니어링이 대형 언어 모델의 추론 성능을 향상시킨다는 사실 확인.
- 시연이 단일 및 멀티 에이전트 논의에서 성과의 상한선으로 작용함.

5.2 Evaluation on All Tasks

목적 및 배경
- 시연이 FOLIO-wiki 데이터셋에서 성능 향상에 중요한 역할을 함을 발견
- 평가를 시연이 있는 경우(직접)와 없는 경우(데모)로 간소화
실험 결과 요약 (표 2)
1. 시연이 있는 경우
  - 토론 프레임워크와 단일 에이전트 설정이 평균적으로 유사한 성능
2. 시연이 없는 경우
  - CMD가 평균적으로 단일 에이전트 설정을 초과하는 경향
  - 대부분의 개별 작업에서도 CMD가 단일 에이전트보다 우수
토론의 효과에 대한 설명
- 다중 에이전트 토론 프레임워크(CMD 포함)가 단일 에이전트보다 성능이 좋은 이유
  - 다른 에이전트의 입력이 새로운 시각을 제공하여 더욱 철저한 추론 과정 촉진
토론 프레임워크 간 성능 차이
- MAD (3 에이전트): 가장 비효율적
  - 상반된 사고를 유도하여 비관련 정보를 도입, 추론 방해 가능성
- Debate와 CMD: 특정 조건에서 예기치 않은 행동 관찰
  - ECQA 데이터셋에서 시연 도입 시 성능 저하
  - 이는 ECQA가 실제 지식 요구를 초과하여 복잡성을 초래할 수 있다는 가설
데이터셋 특성
- GSM8K와 FOLIO-wiki: 귀납적 추론 강화
  - 에이전트 간의 토론이 자신의 추론의 결함을 인식하고 해결하는 데 도움을 줌
결론
- 기술된 프레임워크들에 대한 성능 분석은 향후 연구와 개선 가능성을 제시

5.3 Two Discussion Error Types: A Case Study

다중 에이전트 토론의 문제점
- 실험 결과, 다중 에이전트 토론이 단일 에이전트가 올바르게 답변한 질문에 대해 잘못된 결론에 도달할 수 있음을 보여줌.
- FOLIO-wiki 데이터셋의 예시:
  - 단일 에이전트가 올바른 답변을 제공함에도 불구하고, 다중 에이전트 토론은 잘못된 결과 도출.
사전 조건 및 제안
- 전제:
  1. 고관세를 지지하는 모든 사람은 공화당원이다.
  2. 일부 공화당원은 보수주의자가 아니다.
- 제안: 단일 에이전트 답변은 ‘알 수 없음’.
토론 오류 유형
1. 판사 실수 (Judge Mistake):
  - 에이전트가 최종 답변을 결정하는 역할을 할 때 발생.
  - 다양한 응답이 존재할 경우, 판사가 잘못된 옵션을 최종 결정으로 선택할 수 있음.
  - MAD 및 CMD와 같은 프레임워크는 이 오류에 취약하며, 동점 상황에서 결정될 때 특히 문제 발생 가능.
2. 잘못된 답변 전파 (Wrong Answer Propagation):
  - 한 에이전트가 다른 에이전트의 입력에 영향을 받아 원래의 올바른 답변에서 벗어나 잘못된 합의로 이동하는 경우 발생.
  - 다중 에이전트 토론에서 가장 흔한 실수이며, 초기 답변이 대부분 올바르더라도 잘못된 결론에 도달할 수 있음.
결론
- 이러한 오류들은 다중 에이전트 토론이 잘못된 결론에 도달하게 만들 수 있으며, 단일 에이전트는 올바른 답변에 도달할 수 있음.

5.4 Summary

다양한 프롬프트 구성 요소 조합을 평가함.
단일 에이전트 설정과 다중 에이전트 논의에 대해 분석.
두 에이전트 모두 데모에 접근할 경우:
- 다중 에이전트 논의는 단일 에이전트와 동등한 성능을 보임.
데모 없이 진행할 경우:
- 다중 에이전트 논의가 단일 에이전트보다 일반적으로 더 성능이 우수함.
- 전문 지식이나 상세한 예시가 부족한 상황에서 더 나은 선택.
비정상적인 결과 강조.
다중 에이전트 논의에서 두 가지 빈번한 오류 분석:
- Judge Mistake
- Wrong Answer Propagation

6 Experiments on Multiple LLMs

실험 범위 확장: 단일 LLM에서 여러 LLM으로 확장하여 단일 에이전트 및 다중 에이전트 토론 프레임워크에서 검증.
사용된 LLM:
- ChatGPT-3.5
- Gemini Pro
- Bard
6.1 절:
- 세 가지 단일 에이전트 구성의 성능 비교.
- 각 LLM을 사용하는 단일 에이전트와 세 LLM을 활용한 다중 에이전트 논의 비교.
6.2 절:
- 라운드 수준 분석 결과:
  - 더 강력한 LLM으로 구동되는 에이전트가 덜 능력 있는 LLM으로 구동되는 에이전트의 성능을 향상시킬 수 있음.
부록 A:
- 오픈 소스 LLM과 이들이 다른 LLM과 어떻게 상호작용하는지를 탐구한 추가 실험 결과 포함.

6.1 Validate Findings on Multiple LLMs Scenarios

목표: 세 가지 단일 에이전트 설정(각각 다른 LLM 지원)과 두 개의 멀티 에이전트 토론 프레임워크(ReConcile, CMD)의 성능 평가.
프롬프트 설정:
- 두 가지 유형:
  - 데모 있는 경우
  - 데모 없는 경우
CMD 프레임워크:
- 여섯 개의 에이전트를 두 그룹(세 개씩)으로 구성
- 각 그룹의 에이전트는 다음 LLM 중 하나로 지원됨:
  - ChatGPT-3.5
  - Gemini Pro
  - Bard
결과 요약:
- 단일 강력 에이전트 vs 토론 프레임워크:
  - 테이블 3의 결과에 따르면, 데모가 제공될 때 토론 프레임워크는 Gemini Pro 지원 단일 에이전트와 유사한 성능을 보임.
  - 이는 ‘강력한’ 단일 에이전트가 잘 설계된 프롬프트와 SOTA LLM으로 지원받을 경우 멀티 에이전트 토론 프레임워크와 경쟁할 수 있다는 이전 결론을 강화함.
- 토론 프레임워크 vs 단일 에이전트 (비 데모):
  - 테이블 3은 멀티 LLM 시나리오에서 데모가 없는 경우 멀티 에이전트 토론이 단일 에이전트보다 우수하다고 나타냄.
  - 이는 단일 LLM 설정에서도 관찰된 결과와 일치함.
  - CMD와 ReConcile은 데모가 없고 동일 LLM로 지원되는 경우 유사한 성능을 나타냄.
  - 이는 다양한 멀티 LLM 멀티 에이전트 토론 프레임워크에서의 결과 일관성을 보여줌.

6.2 Enhancing Agents in Weaker LLMs with Support from Stronger LLMs

단일 에이전트 성능:
- Bard는 FOLIO-wiki 데이터셋에서 추론 작업의 효과성이 가장 낮음.
- 다수의 LLM과 다중 에이전트 프레임워크는 경쟁력을 유지.
다중 에이전트 토론 분석:
- 각 LLM의 라운드별 성능을 평가하여 Bard와 ChatGPT-3.5 같은 약한 LLM들이 Gemini Pro와의 협력으로 성능이 향상되는 과정을 연구.
- Figure 5는 이러한 성능 향상을 시각적으로 나타냄.
Gemini Pro의 지원:
- Gemini Pro는 약한 LLM의 지식 및 추론의 격차를 메우는 역할을 함.
- 더 강한 추론 경로로 안내함.
성능 변동:
- Gemini Pro는 두 번째 라운드에서 성능이 약간 감소했으나, 빠르게 회복하여 평균 이상의 성능을 유지함.
결과 요약:
- 다양한 다중 LLM 토론(예: ReConcile, CMD)에서도 Gemini Pro의 성능 유지와 회복력이 두드러짐.
표 (Table 3):
- 단일 에이전트와 CMD의 여러 LLM에 대한 결과를 포함.
- 각 LLM의 성능은 ‘직접 데모’ 및 ‘데모 없이’ 두 가지 방식으로 평가됨.
수식 예시:
- 성능 지표를 수식으로 표현할 경우, $\text{성능} = \frac{\text{정확한 답변의 수}}{\text{총 응답 수}}$
- 와 같은 방식으로 설명할 수 있음.

7.1 Prompting LLM for Reasoning

최근 연구는 강력한 대형 언어 모델(LLM) 구축과 프롬프트 엔지니어링 전략을 통한 여러 하위 작업의 활용에 큰 진전을 이루었습니다.
다양한 지식 텍스트 출처와 매개변수 크기로 훈련된 여러 LLM이 개발되었으며, 이는 다양한 추론 기능을 갖추고 있습니다.
- 예를 들어, OPT, LLaMA, BLOOM, PaLM 등이 있습니다.
최근 Gemini Pro는 멀티 모달리티 분야로 LLM의 능력을 확장했습니다.
프롬프트 엔지니어링을 통한 LLM의 추론 능력 향상에 많은 발전이 있었습니다.
- Chain of Thought (CoT): 직선적 문제 해결 접근법으로, 각 단계가 이전 단계에 기반하여 진행됩니다.
  - Fu et al.는 CoT를 다단계 추론 작업에 적용할 것을 제안합니다.
- Auto-CoT: 다양한 질문을 샘플링하고 추론 체인을 생성하여 CoT를 자동화합니다.
- ActivePrompt: 작업별 주석을 위해 가장 불확실한 질문을 선택하는 목표를 가집니다.
LLM의 추론 강화를 위한 기타 프롬프트 전략:
- PS Prompt: 작업을 하위 작업으로 나눈 접근 방식.
- ToT: 여러 추론 경로를 고려하고 선택을 자기 평가하는 방법.
- GoT: 사고를 그래프로 표현하는 효과적인 접근.
- Natural Program: 연역적 추론 작업 향상에 도움을 줌.
- re-reading prompt: 입력 프롬프트에 포함된 질문 정보를 재검토하는 방법.

7.2 Multi-agent Discussion for Reasoning with LLMs

다중 에이전트 논의는 여러 LLM을 에이전트로 활용하여 문제를 상호작용 방식으로 집단적으로 논의하고 추론하는 방식임.
단일 LLM의 추론 능력을 향상시키기 위한 연구는 많지만, LLM 간 다중 에이전트 논의는 아직 탐색 중임.
Multi-Agent Debate 프레임워크 (Du et al., 2023)
- 에이전트 간의 대칭적 논의 메커니즘을 구축함.
MAD (Multi-Agent Debate) 프레임워크 (Liang et al., 2023)
- 비대칭적 메커니즘 설계를 도입하여, 서로 다른 역할(토론자 및 심판)을 비대칭적으로 할당함.
유사한 연구: (Chan et al., 2023)
ReConcile 프레임워크 (Chen et al., 2023a)
- 서로 다른 LLM을 포함하고 가중치 투표 메커니즘을 사용하여 비대칭 논의 메커니즘을 보여줌.
다중 에이전트 논의 과정을 더 깊이 이해하기 위해 Zhang et al. (2023a)는 사회 심리학적 관점에서 협력 메커니즘을 설명하고자 함.
본 연구는 정의된 다중 에이전트 그룹 논의 프레임워크인 CMD를 통해 논의 과정에서 프롬프트 내용의 잠재적 효과를 탐색하고자 함.

8 Conclusion

본 논문은 다중 에이전트 토론이 단일 에이전트보다 추론 작업에서 우수하다는 주장을 재검토함.
새로운 프레임워크 CMD를 도입하여 포괄적이고 공정한 평가를 실시.
실험 결과:
- 강력한 프롬프트와 강력한 LLM을 활용한 단일 에이전트가 다중 LLM 다중 에이전트 토론과 비슷한 성능을 달성함.
- 시연이 없을 경우, 다중 에이전트 토론 프레임워크가 대부분의 작업에서 단일 에이전트를 초월함.
- 다중 LLM이 참여하는 다중 에이전트 토론에서, 강력한 LLM을 가진 에이전트가 논의가 진행됨에 따라 약한 LLM을 가진 에이전트의 성능을 향상시킬 수 있음.

Ethical Considerations

공공 데이터셋 활용
- 사용한 데이터셋은 학술 연구를 위해 설계됨
- 개인 데이터는 전혀 처리되지 않음
라이센스된 API 사용
- LLMs의 활용은 API 사용 정책을 준수
- 공정 사용 기준을 유지하고 지식 재산권을 존중
투명성
- 실험 방법을 자세히 제공하여 결과 재현 가능성 보장
- 투명한 과학적 관행을 장려

Limitations

에이전트 복잡성 향상:
- 현재 모든 논의 프레임워크(CMD 포함)는 LLM 세션을 AI 에이전트로 간주함.
- 이 접근법은 문헌에서 정의된 LLM 기반 AI 에이전트 개념을 단순화함 (Weng, 2023).
- 더 정교한 기술(예: Tree-of-Thought (Yao et al., 2023a), Cumulative Reasoning (Zhang et al., 2023b)) 또는 외부 도구 및 지식베이스와의 통합을 통해 Multi-agent 논의의 전반적인 추론 성능을 개선할 수 있음.
작업 다양성 확장:
- 우리의 연구는 주로 단일 에이전트 설정과 다중 에이전트 논의를 평가하기 위한 추론 과제에 초점을 맞춤.
- 논의의 적응적인 성격 덕분에 더 다양한 응용 프로그램을 탐구할 수 있음.
- 향후 연구는 현실 세계의 전략적 계획과 같은 다양한 시나리오에서 에이전트 논의의 사용 가능성을 탐구할 수 있음.
추가 LLM 실험:
- 컴퓨팅 및 재정적 제약으로 인해, 세 가지 LLM(Bard, Gemini Pro, ChatGPT-3.5)만 테스트함.
- 추가 LLM을 포함하는 분석 확장은 다양한 언어 모델 간의 능력과 변화를 더 폭넓게 이해할 수 있게 해줌.
- 이는 다중 에이전트 논의 프레임워크에서의 발견의 일반화 가능성과 확장성에 대한 귀중한 통찰을 제공할 수 있음.

Hanyong Lee

[논문리뷰] Rethinking the Bounds of LLM Reasoning- Are Multi-Agent Discussions the Key? (ACL 2024)

1 Introduction

2.1 What is Multi-Agent Discussion?

2.2 Existing Discussion Frameworks

3 CMD: Conquer-and-Merge Discussion

3.1 Message-Passing Algorithm

3.2 Three Stages of CMD

4 Experimental Setups

4.1 Implementation Details and Metrics

4.2 Downstream Tasks

5 Experiments on Single LLM

5.1 Analysis of FOLIO-wiki Dataset

5.2 Evaluation on All Tasks

5.3 Two Discussion Error Types: A Case Study

5.4 Summary

6 Experiments on Multiple LLMs

6.1 Validate Findings on Multiple LLMs Scenarios

6.2 Enhancing Agents in Weaker LLMs with Support from Stronger LLMs

7.1 Prompting LLM for Reasoning

7.2 Multi-agent Discussion for Reasoning with LLMs

8 Conclusion

Ethical Considerations

Limitations

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)