[논문리뷰] Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate (EMNLP 2024)
현대의 대형 언어 모델(LLM)은 일반적인 언어 작업에서는 우수한 성능을 보이지만 복잡한 추론 작업에서는 여전히 어려움을 겪고 있으며, 이를 해결하기 위한 연구로 자기 반영(self-reflection) 전략이 제안된다. 하지만 이 연구에서는 자기 반영 방식이 ‘사고의 퇴화(Degeneration-of-Thought, DoT)’ 문제에 직면한다고 밝혀, 이를 해결하기 위해 다수의 에이전트가 논쟁하는 ‘다중 에이전트 논쟁(Multi-Agent Debate, MAD)’ 프레임워크를 제안하고, 이 방법이 깊은 사고를 요구하는 작업에 효과적임을 실험을 통해 입증하였다.
1 Introduction
- 대형 언어 모델(LLMs)은 일반 언어 작업에서 뛰어난 성능을 보임.
- 그러나 복잡한 추론 작업에서는 여전히 어려움을 겪음.
- 사람처럼 문제를 해결하는 전략 탐색을 위한 연구 필요성 증가.
- 자기 반성(self-reflection)이라는 개념이 복잡한 작업을 해결하기 위해 탐구됨.
- 자기 반성은 자신의 생각을 성찰하고 검토하는 과정.
- 반복적 정제 과정을 통해 이전 답변과 피드백을 바탕으로 새로운 답변 생성.
- 하지만 자기 반성의 효과는 LLM의 자기 평가 능력에 의존함.
- 이 연구에서는 자기 반성에서 발생하는 ‘사고의 퇴화’(DoT) 문제에 주목.
- DoT는 LLM 기반 에이전트가 자신의 답변에 대한 확신을 가졌을 때, 잘못된 초기 입장에도 불구하고 새로운 생각을 생성하지 못하는 상황을 설명함.
- 실험적인 결과는 LLM이 잘못된 답변에 고착되어 의미 있는 자기 반성을 수행하지 못함을 보여줌.
- DoT의 발생 요인 세 가지:
- 편향 및 왜곡된 인식
- 변화에 대한 경직성과 저항
- 제한된 외부 피드백
- DoT 문제를 해결하기 위해 인간 문제 해결의 또 다른 기본 특성인 ‘토론’을 활용.
- Multi-Agent Debate (MAD) 프레임워크 제안.
- 두 에이전트가 ‘눈 for 눈’ 상태에서 자신의 주장을 표현.
- 판사가 토론 과정을 모니터링하고 최종 해답을 도출.
- Multi-Agent Debate (MAD) 프레임워크 제안.
- MAD의 특징:
- 한 에이전트의 왜곡된 생각이 다른 에이전트에 의해 수정될 수 있음.
- 변화에 대한 저항은 다른 에이전트에 의해 보완될 수 있음.
- 각 에이전트는 다른 에이전트로부터 외부 피드백을 받을 수 있음.
- 실험을 통해 MAD 프레임워크가 자연어 생성(NLG) 및 이해(NLU)에서 우수한 성능을 보였음.
- 연구 기여 내용:
- DoT 문제 정의 및 MAD 프레임워크 제안.
- MAD의 효율성을 두 가지 도전 과제에서 입증.
- GPT-3.5-Turbo와 함께하는 MAD가 GPT-4의 성능을 초과하는 결과 보여줌.
2 Multi-Agent Debate Framework
-
개요: MAD(Multi-Agent Debate) 프레임워크는 두 명의 논쟁자와 한 명의 판사가 수학 문제를 해결하기 위한 논쟁을 진행하는 구조.
- 구성 요소:
- 메타 프롬프트:
- 주제, 논쟁자의 수, 반복 제한 등 소개.
- 예시: “당신은 논쟁자입니다. 의견 차이에 관계없이 올바른 답을 찾는 것이 목표입니다.”
- 논쟁자:
- N명의 논쟁자 \(D = \{D_i\}^N_{i=1}\)가 참여.
- 각 논쟁자는 고정된 순서로 발언하며, 이전 논쟁 기록 \(H\)에 기반하여 주장.
- 예시:
- 긍정 측 프롬프트: “당신은 긍정 측입니다. 자신의 견해를 표현하십시오.”
- 부정 측 프롬프트: “당신은 부정 측입니다. 긍정 측의 주장을 반박하십시오.”
- 판사:
- 전체 논쟁 과정을 관리하고 모니터링.
- 판별 모드:
- 모든 논쟁자가 주장을 마친 후 정답 여부를 결정. (\(J_d(H) = \{ \text{True, solution obtained}, \text{False, otherwise} \}\))
- 추출 모드:
- 논쟁 기록 전체를 바탕으로 최종 해결책 추출. (\(J_e(H) = a\))
- 주어진 반복 제한 내에 정답이 확인되지 않으면 계속 진행.
- 메타 프롬프트:
- 사례:
- 문제: “A 원이 B 원을 한 번 돌 때, A 원은 총 몇 번 회전하는가?”
- 반론 및 자가 성찰 단계를 통한 논리적 접근.
- 결론: 비록 긍정 측이 B 원 주위의 회전만 고려하는 반면, 부정 측은 A 원의 자체 회전도 포함하여 총 4번 회전한다고 주장.
3 Experiment
- 3.1 도전적인 테스트베드
- 일반 상식 기계 번역 (Common MT)
- 데이터셋: 중국어⇒영어 번역 예시
- 주요 목표: 번역 모델의 모호성 해결 능력 시험
- 모호한 문장의 정확한 번역은 일반 상식 지식의 이해 필요
- 문자 그대로의 해석은 잘못될 수 있음
- 역설적인 산술 추론 (Counter-Intuitive AR)
- 인간의 사고 계층 구조에서 영감을 받아 개발된 데이터셋
- 총 200문제를 포함
- 두 가지 주요 도전 과제:
- 직감에 대한 저항: 숨겨진 함정이 있는 질문
- 다단계 추론: 정확한 답변을 위해 복잡한 논리적 과정 필요
- 일반 상식 기계 번역 (Common MT)
- 3.2 실험 설정
- 입력 형식: 제로샷 명령어 사용 (온도 0 설정)
- 백본 모델: 두 명의 찬반론자와 한 명의 판사 포함
- 비교 방법: MAD 프레임워크와 기본 모델, 자기 반성 방식 비교
- 평가 지표:
- 일반 상식 기계 번역에서는 자동화된 메트릭 사용
- 역설적인 산술 추론에서는 정답률 (ACC) 보고
- 3.3 일반 상식 기계 번역 결과
- 결과: MAPS 및 Self-Reflect가 기본 GPT-3.5-Turbo보다 개선됨
- MAD는 GPT-4를 넘는 성과를 보여줌
- 사례 연구: GPT-3.5-Turbo와 MAD의 번역 비교, MAD가 더 정확한 번역 제공
- 3.4 역설적인 산술 추론 결과
- 결과: MAD가 GPT-4보다는 낮지만 다른 방법들보다 우수한 성과
- 사례 연구: CoT와 Self-Reflect는 잘못된 값 출력, MAD는 올바른 답변 도출
- 추가 결과
- 사고의 퇴화를 완화하는 방법:
- Self-Reflect: 편향 29.0, 다양성 19.3
- MAD: 편향 24.8, 다양성 49.7
- 사고의 퇴화를 완화하는 방법:
4 Analysis
4.1 DoT 문제 완화
- DoT 문제는 세 가지 요인에서 발생:
- 편향 및 왜곡된 인식
- 변화에 대한 강직함 및 저항성
- 제한된 외부 피드백
- MAD 프레임워크는 논쟁을 통해 제한된 외부 피드백 문제를 해결.
- 실험을 통해 편향 바이너리 확인:
- LLM은 종종 직접적인 직관에 의존, 이는 잘못된 응답으로 이어짐.
- 인간 평가를 통해 LLM의 응답의 모호성 오류율 결정.
- 다양성:
- LLM은 답변을 변경하는 데 저항적, 다양한 성찰 부족.
- Self-BLEU 점수를 사용하여 번역의 다양성을 평가.
- \[\text{Diversity} = 100 - \text{Self_BLEU} (\text{Cand1}, \text{Cand2})\]
- 높은 Self-BLEU 점수는 낮은 다양성을 의미.
- 편향 및 강직함은 DoT의 주요 요인으로 작용, 자기 성찰을 통해 수정 가능.
- MAD 프레임워크는 번역의 내재된 편향을 효과적으로 수정.
4.2 재판관 분석
- 강한 논객과 약한 재판관 조합이 더 우수한 성과.
- 다양한 모델 조합을 사용하여 논쟁 결과 평가:
- 작은 모델(예: Vicuna-13b)로 평가 시, 강력한 LLM(GPT-3.5-Turbo)이 더 나은 번역을 생성.
- Turbo 논객이 존재할 때 Vicuna 재판관은 모든 테스트 세트에서 성능 저하.
- 재판관은 같은 LLM일 경우 결과를 선호, 이는 공정하지 않을 수 있음.
4.3 논객 분석
- 논객수, 논쟁 수준, 반복 횟수가 MAD 성과에 영향:
- 논객 수 증가가 항상 성과 개선으로 이어지지 않음.
- LLM 기반 논객이 다른 후보의 관점을 잊는 경향.
- “tit for tat” 방식이 MAD 성과에 긍정적 영향을 미침.
- 높은 불일치가 필요하나, 지속적 불일치는 편견을 강화할 수 있음.
- 복잡한 질문에는 더 많은 반복 필요.
- 대다수 경우 1회 논쟁으로 최적 답안 도출, 효율적임.
- 복잡한 문장은 추가 반복을 요구함.
- MAD 프레임워크는 모든 세트에서 성능 향상 보여줌.
- 적절한 단계에서 논쟁을 종료할 수 있는 적응형 중단이 중요함.
5 Related Work
- Chain-of-Thought Prompting
- Wei et al. (2022)는 LLM의 추론 능력을 향상시키기 위한 chain-of-thought (CoT) prompting을 제안.
- CoT는 다단계 문제의 최종 답변으로 이어지는 중간 단계를 생성하도록 LLM을 유도.
- 초기 연구는 주로 프롬프트 설계와 디코딩 전략에 집중.
- Zero-shot CoT(Kojima et al., 2022)는 “Let’s think step by step”라는 트리거 문장을 사용하여 LLM의 디코딩을 안내.
- 다양한 샘플링 전략이 CoT를 개선하기 위해 탐색됨:
- SelfConsistency (Wang et al., 2022)
- Auto-CoT (Zhang et al., 2022)
- Active-Prompting (Diao et al., 2023)
- Complexity-based Consistency (Fu et al., 2022)
- Multi-Chain Reasoning (Yoran et al., 2023)
- Progressive-Hint Prompting (Zheng et al., 2023)
- 강력한 LLM의 등장으로, self-evaluation 기반 접근법에 대한 관심 증가.
- 초기 출력 생성 후, 이 출력의 평가를 통해 피드백을 확보하고 이를 통해 출력을 수정.
- 평가 피드백은 모델 내부(Self-refine (Madaan et al., 2024), Tree of Thoughts (Yao et al., 2024)) 또는 외부 환경(QAaP (Zhu et al., 2023b), Reflection (Shinn et al., 2024))에서 올 수 있음.
- 이 접근법의 직관은 강력한 LLM을 이용하여 인간의 인지 과정을 모방하는 것.
- Generative Agents
- LLM 기반 다중 에이전트 지능, 예: Generative Agents (Park et al., 2023), Ghost in the Minecraft (Zhu et al., 2023c), GPT-Bargaining (Fu et al., 2023)가 인간 행동 시뮬레이션을 가능하게 하여 주목받음.
- 본 연구는 LLM의 DoT 문제를 해결하기 위한 이 연구 방향을 따름.
- 자사 연구와 동시에 몇몇 연구(Xiong et al., 2023; Du et al., 2023)도 다중 에이전트 논쟁 프레임워크를 탐험하여 LLM의 추론 능력 강화.
- MAD 프레임워크와 이들 연구의 주요 차이점:
- 최적의 논쟁 종료 시점을 판단하기 위한 적응형 브레이크 메커니즘을 가진 추가 심판 도입.
- LLM의 내재적 결함인 DoT 문제 해결을 목표로 함.
- 동일한 백본 LLM을 사용하는 에이전트를 고용하여 성능 향상을 경험적으로 입증.
- MAD 프레임워크와 이들 연구의 주요 차이점:
6 Conclusion
- Degeneration-of-Thought (DoT) 문제 정의:
- 자기 반성 과정에서 DoT 문제를 제안하고 정의함.
- Multi-Agent Debate (MAD) 프레임워크 제안:
- 서로 다른 사고의 연쇄를 탐구하기 위해 MAD 프레임워크를 제안함.
- 실험 결과:
- MAD의 효과성을 두 가지 도전 과제에서 입증.
- GPT-3.5-Turbo와 MAD 조합이 Common MT 데이터셋에서 GPT-4를 초월함.
- 주요 분석 결과:
- 토론의 적응적 휴식 전략과 ‘tit for tat’ 수준이 좋은 성능을 위한 필수 요소로 확인됨.
- 복잡한 샘플은 더 많은 토론 라운드를 요구함.
- 공정성 문제:
- 서로 다른 LLM이 사용될 경우 LLM이 공정한 재판자가 아닐 수 있음.
- 미래 연구 방향:
- 적절한 방식으로 더 많은 에이전트를 토론에 배치.
- 보드 게임을 위한 다중 에이전트 지능 연구.
- 모델 정렬을 위한 AI 피드백 연구.
- 한계:
- 본 방법은 여러 번의 상호작용을 요구하므로 시간 비용이 증가함.
- 현재의 LLM 기반 에이전트는 긴 맥락에서 일관성과 관련성을 유지하는 데 어려움을 겪을 수 있음.
- 대형 언어 모델의 긴 텍스트 모델링 능력을 강화하는 것이 향후 과제가 됨.
- LLM 기반 재판자는 자신이 생성한 출력에 편향을 가질 수 있음.
- 이러한 편향을 완화하기 위해서는 모든 역할이 동일한 LLM을 사용하거나, 아니면 재판자와 토론자가 서로 다른 LLM을 사용하는 것을 권장함.
Comments