6 minute read

현대의 대형 언어 모델(LLM)은 일반적인 언어 작업에서는 우수한 성능을 보이지만 복잡한 추론 작업에서는 여전히 어려움을 겪고 있으며, 이를 해결하기 위한 연구로 자기 반영(self-reflection) 전략이 제안된다. 하지만 이 연구에서는 자기 반영 방식이 ‘사고의 퇴화(Degeneration-of-Thought, DoT)’ 문제에 직면한다고 밝혀, 이를 해결하기 위해 다수의 에이전트가 논쟁하는 ‘다중 에이전트 논쟁(Multi-Agent Debate, MAD)’ 프레임워크를 제안하고, 이 방법이 깊은 사고를 요구하는 작업에 효과적임을 실험을 통해 입증하였다.


1 Introduction

  • 대형 언어 모델(LLMs)은 일반 언어 작업에서 뛰어난 성능을 보임.
  • 그러나 복잡한 추론 작업에서는 여전히 어려움을 겪음.
  • 사람처럼 문제를 해결하는 전략 탐색을 위한 연구 필요성 증가.
  • 자기 반성(self-reflection)이라는 개념이 복잡한 작업을 해결하기 위해 탐구됨.
    • 자기 반성은 자신의 생각을 성찰하고 검토하는 과정.
    • 반복적 정제 과정을 통해 이전 답변과 피드백을 바탕으로 새로운 답변 생성.
  • 하지만 자기 반성의 효과는 LLM의 자기 평가 능력에 의존함.
  • 이 연구에서는 자기 반성에서 발생하는 ‘사고의 퇴화’(DoT) 문제에 주목.
    • DoT는 LLM 기반 에이전트가 자신의 답변에 대한 확신을 가졌을 때, 잘못된 초기 입장에도 불구하고 새로운 생각을 생성하지 못하는 상황을 설명함.
  • 실험적인 결과는 LLM이 잘못된 답변에 고착되어 의미 있는 자기 반성을 수행하지 못함을 보여줌.
  • DoT의 발생 요인 세 가지:
    1. 편향 및 왜곡된 인식
    2. 변화에 대한 경직성과 저항
    3. 제한된 외부 피드백
  • DoT 문제를 해결하기 위해 인간 문제 해결의 또 다른 기본 특성인 ‘토론’을 활용.
    • Multi-Agent Debate (MAD) 프레임워크 제안.
      • 두 에이전트가 ‘눈 for 눈’ 상태에서 자신의 주장을 표현.
      • 판사가 토론 과정을 모니터링하고 최종 해답을 도출.
  • MAD의 특징:
    1. 한 에이전트의 왜곡된 생각이 다른 에이전트에 의해 수정될 수 있음.
    2. 변화에 대한 저항은 다른 에이전트에 의해 보완될 수 있음.
    3. 각 에이전트는 다른 에이전트로부터 외부 피드백을 받을 수 있음.
  • 실험을 통해 MAD 프레임워크가 자연어 생성(NLG) 및 이해(NLU)에서 우수한 성능을 보였음.
  • 연구 기여 내용:
    • DoT 문제 정의 및 MAD 프레임워크 제안.
    • MAD의 효율성을 두 가지 도전 과제에서 입증.
    • GPT-3.5-Turbo와 함께하는 MAD가 GPT-4의 성능을 초과하는 결과 보여줌.

2 Multi-Agent Debate Framework

  • 개요: MAD(Multi-Agent Debate) 프레임워크는 두 명의 논쟁자와 한 명의 판사가 수학 문제를 해결하기 위한 논쟁을 진행하는 구조.

  • 구성 요소:
    • 메타 프롬프트:
      • 주제, 논쟁자의 수, 반복 제한 등 소개.
      • 예시: “당신은 논쟁자입니다. 의견 차이에 관계없이 올바른 답을 찾는 것이 목표입니다.”
    • 논쟁자:
      • N명의 논쟁자 \(D = \{D_i\}^N_{i=1}\)가 참여.
      • 각 논쟁자는 고정된 순서로 발언하며, 이전 논쟁 기록 \(H\)에 기반하여 주장.
      • 예시:
        • 긍정 측 프롬프트: “당신은 긍정 측입니다. 자신의 견해를 표현하십시오.”
        • 부정 측 프롬프트: “당신은 부정 측입니다. 긍정 측의 주장을 반박하십시오.”
    • 판사:
      • 전체 논쟁 과정을 관리하고 모니터링.
      • 판별 모드:
        • 모든 논쟁자가 주장을 마친 후 정답 여부를 결정. (\(J_d(H) = \{ \text{True, solution obtained}, \text{False, otherwise} \}\))
      • 추출 모드:
        • 논쟁 기록 전체를 바탕으로 최종 해결책 추출. (\(J_e(H) = a\))
        • 주어진 반복 제한 내에 정답이 확인되지 않으면 계속 진행.
  • 사례:
    • 문제: “A 원이 B 원을 한 번 돌 때, A 원은 총 몇 번 회전하는가?”
    • 반론 및 자가 성찰 단계를 통한 논리적 접근.
  • 결론: 비록 긍정 측이 B 원 주위의 회전만 고려하는 반면, 부정 측은 A 원의 자체 회전도 포함하여 총 4번 회전한다고 주장.

3 Experiment

  • 3.1 도전적인 테스트베드
    • 일반 상식 기계 번역 (Common MT)
      • 데이터셋: 중국어⇒영어 번역 예시
      • 주요 목표: 번역 모델의 모호성 해결 능력 시험
      • 모호한 문장의 정확한 번역은 일반 상식 지식의 이해 필요
      • 문자 그대로의 해석은 잘못될 수 있음
    • 역설적인 산술 추론 (Counter-Intuitive AR)
      • 인간의 사고 계층 구조에서 영감을 받아 개발된 데이터셋
      • 총 200문제를 포함
      • 두 가지 주요 도전 과제:
        • 직감에 대한 저항: 숨겨진 함정이 있는 질문
        • 다단계 추론: 정확한 답변을 위해 복잡한 논리적 과정 필요
  • 3.2 실험 설정
    • 입력 형식: 제로샷 명령어 사용 (온도 0 설정)
    • 백본 모델: 두 명의 찬반론자와 한 명의 판사 포함
    • 비교 방법: MAD 프레임워크와 기본 모델, 자기 반성 방식 비교
    • 평가 지표:
      • 일반 상식 기계 번역에서는 자동화된 메트릭 사용
      • 역설적인 산술 추론에서는 정답률 (ACC) 보고
  • 3.3 일반 상식 기계 번역 결과
    • 결과: MAPS 및 Self-Reflect가 기본 GPT-3.5-Turbo보다 개선됨
    • MAD는 GPT-4를 넘는 성과를 보여줌
    • 사례 연구: GPT-3.5-Turbo와 MAD의 번역 비교, MAD가 더 정확한 번역 제공
  • 3.4 역설적인 산술 추론 결과
    • 결과: MAD가 GPT-4보다는 낮지만 다른 방법들보다 우수한 성과
    • 사례 연구: CoT와 Self-Reflect는 잘못된 값 출력, MAD는 올바른 답변 도출
  • 추가 결과
    • 사고의 퇴화를 완화하는 방법:
      • Self-Reflect: 편향 29.0, 다양성 19.3
      • MAD: 편향 24.8, 다양성 49.7

4 Analysis

4.1 DoT 문제 완화

  • DoT 문제는 세 가지 요인에서 발생:
    • 편향 및 왜곡된 인식
    • 변화에 대한 강직함 및 저항성
    • 제한된 외부 피드백
  • MAD 프레임워크는 논쟁을 통해 제한된 외부 피드백 문제를 해결.
  • 실험을 통해 편향 바이너리 확인:
    • LLM은 종종 직접적인 직관에 의존, 이는 잘못된 응답으로 이어짐.
    • 인간 평가를 통해 LLM의 응답의 모호성 오류율 결정.
  • 다양성:
    • LLM은 답변을 변경하는 데 저항적, 다양한 성찰 부족.
    • Self-BLEU 점수를 사용하여 번역의 다양성을 평가.
    • \[\text{Diversity} = 100 - \text{Self_BLEU} (\text{Cand1}, \text{Cand2})\]
    • 높은 Self-BLEU 점수는 낮은 다양성을 의미.
  • 편향 및 강직함은 DoT의 주요 요인으로 작용, 자기 성찰을 통해 수정 가능.
  • MAD 프레임워크는 번역의 내재된 편향을 효과적으로 수정.

4.2 재판관 분석

  • 강한 논객과 약한 재판관 조합이 더 우수한 성과.
  • 다양한 모델 조합을 사용하여 논쟁 결과 평가:
    • 작은 모델(예: Vicuna-13b)로 평가 시, 강력한 LLM(GPT-3.5-Turbo)이 더 나은 번역을 생성.
    • Turbo 논객이 존재할 때 Vicuna 재판관은 모든 테스트 세트에서 성능 저하.
  • 재판관은 같은 LLM일 경우 결과를 선호, 이는 공정하지 않을 수 있음.

4.3 논객 분석

  • 논객수, 논쟁 수준, 반복 횟수가 MAD 성과에 영향:
    • 논객 수 증가가 항상 성과 개선으로 이어지지 않음.
    • LLM 기반 논객이 다른 후보의 관점을 잊는 경향.
  • “tit for tat” 방식이 MAD 성과에 긍정적 영향을 미침.
    • 높은 불일치가 필요하나, 지속적 불일치는 편견을 강화할 수 있음.
  • 복잡한 질문에는 더 많은 반복 필요.
  • 대다수 경우 1회 논쟁으로 최적 답안 도출, 효율적임.
  • 복잡한 문장은 추가 반복을 요구함.
  • MAD 프레임워크는 모든 세트에서 성능 향상 보여줌.
  • 적절한 단계에서 논쟁을 종료할 수 있는 적응형 중단이 중요함.

5 Related Work

  • Chain-of-Thought Prompting
    • Wei et al. (2022)는 LLM의 추론 능력을 향상시키기 위한 chain-of-thought (CoT) prompting을 제안.
    • CoT는 다단계 문제의 최종 답변으로 이어지는 중간 단계를 생성하도록 LLM을 유도.
    • 초기 연구는 주로 프롬프트 설계디코딩 전략에 집중.
    • Zero-shot CoT(Kojima et al., 2022)는 “Let’s think step by step”라는 트리거 문장을 사용하여 LLM의 디코딩을 안내.
    • 다양한 샘플링 전략이 CoT를 개선하기 위해 탐색됨:
      • SelfConsistency (Wang et al., 2022)
      • Auto-CoT (Zhang et al., 2022)
      • Active-Prompting (Diao et al., 2023)
      • Complexity-based Consistency (Fu et al., 2022)
      • Multi-Chain Reasoning (Yoran et al., 2023)
      • Progressive-Hint Prompting (Zheng et al., 2023)
    • 강력한 LLM의 등장으로, self-evaluation 기반 접근법에 대한 관심 증가.
      • 초기 출력 생성 후, 이 출력의 평가를 통해 피드백을 확보하고 이를 통해 출력을 수정.
      • 평가 피드백은 모델 내부(Self-refine (Madaan et al., 2024), Tree of Thoughts (Yao et al., 2024)) 또는 외부 환경(QAaP (Zhu et al., 2023b), Reflection (Shinn et al., 2024))에서 올 수 있음.
      • 이 접근법의 직관은 강력한 LLM을 이용하여 인간의 인지 과정을 모방하는 것.
  • Generative Agents
    • LLM 기반 다중 에이전트 지능, 예: Generative Agents (Park et al., 2023), Ghost in the Minecraft (Zhu et al., 2023c), GPT-Bargaining (Fu et al., 2023)가 인간 행동 시뮬레이션을 가능하게 하여 주목받음.
    • 본 연구는 LLM의 DoT 문제를 해결하기 위한 이 연구 방향을 따름.
    • 자사 연구와 동시에 몇몇 연구(Xiong et al., 2023; Du et al., 2023)도 다중 에이전트 논쟁 프레임워크를 탐험하여 LLM의 추론 능력 강화.
      • MAD 프레임워크와 이들 연구의 주요 차이점:
        1. 최적의 논쟁 종료 시점을 판단하기 위한 적응형 브레이크 메커니즘을 가진 추가 심판 도입.
        2. LLM의 내재적 결함인 DoT 문제 해결을 목표로 함.
        3. 동일한 백본 LLM을 사용하는 에이전트를 고용하여 성능 향상을 경험적으로 입증.

6 Conclusion

  • Degeneration-of-Thought (DoT) 문제 정의:
    • 자기 반성 과정에서 DoT 문제를 제안하고 정의함.
  • Multi-Agent Debate (MAD) 프레임워크 제안:
    • 서로 다른 사고의 연쇄를 탐구하기 위해 MAD 프레임워크를 제안함.
  • 실험 결과:
    • MAD의 효과성을 두 가지 도전 과제에서 입증.
    • GPT-3.5-Turbo와 MAD 조합이 Common MT 데이터셋에서 GPT-4를 초월함.
  • 주요 분석 결과:
    • 토론의 적응적 휴식 전략과 ‘tit for tat’ 수준이 좋은 성능을 위한 필수 요소로 확인됨.
    • 복잡한 샘플은 더 많은 토론 라운드를 요구함.
  • 공정성 문제:
    • 서로 다른 LLM이 사용될 경우 LLM이 공정한 재판자가 아닐 수 있음.
  • 미래 연구 방향:
    • 적절한 방식으로 더 많은 에이전트를 토론에 배치.
    • 보드 게임을 위한 다중 에이전트 지능 연구.
    • 모델 정렬을 위한 AI 피드백 연구.
  • 한계:
    • 본 방법은 여러 번의 상호작용을 요구하므로 시간 비용이 증가함.
    • 현재의 LLM 기반 에이전트는 긴 맥락에서 일관성과 관련성을 유지하는 데 어려움을 겪을 수 있음.
    • 대형 언어 모델의 긴 텍스트 모델링 능력을 강화하는 것이 향후 과제가 됨.
    • LLM 기반 재판자는 자신이 생성한 출력에 편향을 가질 수 있음.
    • 이러한 편향을 완화하기 위해서는 모든 역할이 동일한 LLM을 사용하거나, 아니면 재판자와 토론자가 서로 다른 LLM을 사용하는 것을 권장함.

Comments