9 minute read

요약: 본 논문에서는 대화 시스템의 인간 같은 특성을 평가하기 위한 12개의 대화 과제가 포함된 DialogBench라는 벤치마크를 제안하며, instruction tuning이 대형 언어 모델의 인간 유사성을 어느 정도 향상시키지만 여전히 개선 여지가 많음을 보여준다.


1 Introduction

  • 대규모 언어 모델(LLMs)은 새로운 대화 능력을 통해 놀라운 발전을 이루었음.
  • 이러한 능력은 인간이 LLM과 자연스럽게 상호작용할 수 있게 해 주며, 대화 시스템에 대한 인간의 인식을 변화시킴.
  • 대화 시스템의 목표는 LLM이 인간과 유사하게 되어 사용자와 장기적인 관계를 형성하는 것임.
  • 인간 유사성은 대화 맥락을 올바르게 이해하고, 관련 지식을 적절히 활용하며, 필요시 사용자의 감정과 성격을 인식하고, 대화 맥락에 일치하는 친근하고 합리적인 응답을 생성하는 등의 능력을 포함함.
  • 그러나 인간 유사성의 향상이 기존 LLM 벤치마크 점수에 반영되지 않음.
  • 현재 LLM 벤치마크는 주로 과제 완료 능력을 평가하는 데 초점을 맞추며, 인간과의 장기적 연결 능력에는 중점을 두지 않음.
  • 따라서 LLM의 인간 유사성과 관련된 능력을 평가하는 심층 벤치마크가 필요함.
  • 이상적인 접근은 실제 인간의 고품질 대화를 수집하는 것이나, 대부분의 대화는 LLM의 사전 훈련 동안 유출되었을 가능성이 있음.
  • “데이터 유출”을 방지하기 위해, 평가 벤치마크는 새로운 평가 사례를 포함하고 자주 업데이트되어야 함.
  • 인간 작성의 어려움으로 인해, 새로운 인간 간의 대화를 자동으로 생성해야 함.
  • GPT-4를 활용하여 대량의 평가 사례를 생성하는 방법을 탐구함.
  • 이 논문에서는 GPT-4를 데이터 생성기로 사용하는 새롭고 포괄적인 대화 평가 벤치마크인 DialogBench를 제안함.
  • 감정 표현이나 상식 사용이 포함되지 않을 수 있으므로, 다양한 세분화된 능력에 대한 평가 사례를 생성함.
  • 12개의 대화 작업을 선택하여 LLM이 수행하는 데 필요한 최소한의 능력을 요구함.
  • 각 작업에 대해 GPT-4에 평가 사례 생성을 요청함.
  • 이를 통해 영어 및 중국어 대화 평가 벤치마크를 구축함.
  • 26개의 LLM을 DialogBench를 사용하여 종합적으로 평가함.
  • 실험 결과는 지도가 있는 교육이 LLM의 인간 유사성을 향상시킬 수 있음을 보여줌.
  • 최상위 모델은 다양한 대화 작업을 잘 수행할 수 있으며, LLM을 인간과 유사한 대화 시스템으로 발전시킬 가능성을 나타냄.
  • 그러나 최상위 모델과 다른 LLM 간에는 성능 격차가 크며, 감정과 성격 인식 능력이 상대적으로 낮음을 관찰함.

2 Related Work

  • LLM 평가:
    • LLM의 강점과 한계를 이해하기 위해 여러 평가 기준이 제안됨.
    • 평가 기준은 주로 LLM의 보조 AI로서의 작업 완료 능력을 평가함.
    • 주요 카테고리:
      • 종합 평가 기준: 여러 NLP 작업을 종합적으로 평가 (Liang et al., 2022 외).
      • 인간 중심 평가 기준: 자격 시험을 통해 인간 중심 시나리오에서 평가 (Zeng, 2023 외).
      • 특별 능력 평가 기준: 고급 능력에 대한 강조 (Ahn et al., 2022 외).
    • 다양한 평가 기준이 존재하지만 LLM을 인간과 유사한 대화 시스템으로 포괄적으로 평가하는 기준은 없음.
  • 대화 평가 기준:
    • 대화 능력을 평가하기 위한 여러 기준 존재 (Reddy et al., 2019 외).
    • 이러한 기준은 관련 훈련 세트에서 세부 조정된 언어 모델을 평가 가능하지만, 지시를 따르는 LLM을 직접 평가할 수 없음.
    • 이전 기준은 LLM의 사전 훈련 중 유출되었을 가능성 존재.
    • DialogBench: 자연어로 구성된 새로운 평가 사례가 포함되어 LLM을 직접 평가할 수 있음.
    • Zheng et al. (2023)은 LLM의 멀티 턴 지시 따르기 능력을 평가, 인간 선호와의 정렬 평가에 중점.
    • 최근 연구들은 GPT-4 또는 ChatGPT의 인간 유사성에 초점을 맞춤.
  • 데이터 생성 위한 LLM 사용:
    • 여러 최신 연구들이 GPT-4를 활용하여 데이터 생성 (Whitehouse et al., 2023 외).
    • 일반적으로 몇 가지 훈련 사례를 사용해 더 많은 훈련 인스턴스를 생성하는 방식.
    • 반면, 본 연구는 GPT-4를 활용하여 평가 기준 구축을 위한 새로운 평가 인스턴스를 생성함.

3 DialogBench

image

3.1 Task Selection

image

  • LLM(대형 언어 모델)의 인간 유사성을 평가하기 위한 주요 차원:
    • 일관성 (coherence)
    • 일관성 (consistency)
    • 정확성 (correctness)
    • 안전성 (safety)
  • LLM은 다양성과 유창성에서 큰 발전을 이루었으며, 이제 정확성과 안전성에 대한 요구 사항이 증가함.
  • 각 평가 차원을 기반으로 작업을 선택하며, 이는 작업 완료의 질을 통해 반영됨.
  • 12개의 대화 작업을 세밀하게 정리함.
  • 작업 선택 과정 및 정의는 부록 A에 제시됨.
  • 전체 선택 결과는 그림 2에 나와 있음.

3.2 Question Setting

image

  • 선택된 과제는 이해 과제와 생성 과제를 포함.
  • 각 과제에 따른 평가 지표가 다름.
  • 평가를 통합하기 위해 기존 벤치마크를 따름 (Li et al., 2023a; Hendrycks et al., 2021; Huang et al., 2023).
  • 다중 선택 질문을 채택하고 정확도를 평가 지표로 사용.
  • 평가 인스턴스는 LLM이 다중 전환 대화 컨텍스트를 기반으로 주어진 테스트 질문에 대한 정답 후보에서 올바른 답안을 선택하도록 요구.
  • 질문 템플릿은 Figure 4에 표시됨.

3.3 Prompt Formatting

image

  • 잘 설계된 프롬프트는 높은 품질의 평가 인스턴스를 생성하는 데 도움을 줌.
  • Zhao et al. (2023a)의 프롬프트 디자인에 따라 프롬프트를 생성함.
    • 네 가지 주요 성분과 몇 가지 기본 설계 원칙을 요약.
  • 슬롯 채우기를 예로 들어 프롬프트 생성 과정을 설명.
    • 핵심 내용을 명확히 하고, 이를 기본 설계 원칙에 따라 효과적인 프롬프트로 통합.
  • 자세한 생성 과정은 부록 B에 설명됨.
  • 최종 프롬프트는 네 가지 성분의 내용을 연결한 문자열로 구성됨. (그림 3 참조)

3.4 Quality Control

  • 생성된 평가 인스턴스에서 여러 가지 편향과 낮은 품질을 관찰함.
  • 이를 완화하고 필터링 메커니즘을 제시함.
  • 최적화된 프롬프트는 모든 작업에 대해 제시됨 (표 9-20 참조).

기본 프롬프트 구성

  • 목표 설명: 다중 턴 대화에서 슬롯 필링을 위한 주석 처리 능력을 테스트 중.
  • 생성 단계: 슬롯 유형을 설정하고 10턴(20발화) 대화를 생성하며 슬롯 필링에 대한 질문을 작성.
  • 입력 데이터: 자연어로 연속적인 상호작용이 이루어진 대화 기록.
  • 문맥 정보: 각 대화에 대한 도메인 및 스타일 정보를 포함하여 질문 설정.

편향 완화 메커니즘

  • 도메인 편향 완화:
    • 각 도메인의 인스턴스를 균형 유지하며, 20개의 주요 도메인을 설정하여 고르게 분포하도록 함.
    • 데이터 부족한 도메인에 대한 정확성을 향상시키기 위해 수작업으로 구성됨.
  • 스타일 편향 완화:
    • 생성된 대화의 친근한, 중립적, 불친절한 스타일 분석.
    • 불친절한 대화 스타일을 일정 비율로 생성하도록 기본 프롬프트를 최적화하며, 다양한 상호작용 시나리오를 반영함.
  • 위치 편향 완화:
    • 다중 선택 질문에서 정답의 위치가 고르게 분포되지 않음.
    • 정답의 위치를 무작위로 배정하여 편향을 감소시킴.

데이터 필터링

  • 낮은 품질의 인스턴스가 포함된 평가 세트를 정제하기 위해 GPT-4를 활용.
  • 다중 선택 질문의 정확성을 검토하고 올바른 것으로 판단되는 인스턴스만 유지함.
  • 평균 필터링 비율은 10.08%로 나타남.

결론

  • 다양한 편향을 완화하기 위한 프롬프트 최적화 및 필터링을 통해 품질 높은 대화 인스턴스를 생성하는 것을 목표로 함.

4 Experimental Setup

  • 데이터셋 통계
    • DialogBench의 통계는 Table 1에 보고됨.
    • 각 작업의 약어를 사용하여 간단하게 설명.
  • 평가할 LLMs
    • 총 26개의 모델 평가 (Appendix D.1의 Table 6).
    • 두 가지 범주로 분류:
      1. 사전 훈련된 LLMs: 주로 LLaMA 모델 변형 및 academia와 기업에서 훈련된 모델.
      2. 지도 Instruction-tuning LLMs: 주로 academia와 기업에서 출시, GPT-4와 ChatGPT 제외하고 오픈 소스 LLM.
    • 인간 수준 평가:
      • 각 작업에서 50개의 평가 인스턴스를 무작위로 선택, 3명의 전문가가 답변.
      • 최소 2명이 정답을 맞힌 경우 해당 질문을 올바른 것으로 간주.
  • 평가 방법
    • LLMs에 대해 정확도를 메트릭으로 사용하고 두 가지 평가 방법 사용:
      1. 사전 훈련된 LLMs: 각 옵션 내용을 독립적으로 점수화.
        • 대화와 질문을 프롬프트로 사용해 “옵션 콘텐츠”의 확률 계산.
        • 퍼플렉시티를 계산하여 가장 낮은 퍼플렉시티의 레이블을 예측 답변으로 선택.
      2. 지도 Instruction-tuning LLMs: 주어진 대화를 사용자와 LLM 간의 대화 기록으로 간주.
        • 명령어, 질문 및 모든 옵션을 합쳐 질문을 생성하고 LLM이 옵션 레이블을 제공.
  • 실행 세부사항
    • GPT-4를 사용할 때 평가 인스턴스 생성을 위한 파라미터 설정:
      • 온도: 1, presence_penalty: 0.6, frequency_penalty: 0 등.
    • LLM 평가 시:
      • ChatGPT 및 GPT-4의 온도: 0, presence_penalty: 0.6, frequency_penalty: 0 설정.
      • 오픈 소스 모델의 온도: 0, max_new_tokens: 256 설정.
    • 사용된 ChatGPT 및 GPT-4 버전: gpt-3.5-turbo-0613, gpt-4-0314.
    • Pytorch 및 Huggingface를 사용하여 구현.
    • A100 80GB GPU에서 실험, 각 작업을 추론하는 데 평균 20분에서 2시간 소요.
    • 평가 프롬프트는 Appendix D.2에 기재.

5 Main Results

image

image

  • 총 점수 및 작업별 점수
    • 영어 DialogBench에서의 모든 LLM의 전체 점수가 중국 DialogBench보다 약간 높은 것으로 나타남.
    • 각 작업에 대한 LLM의 성능은 영어와 중국 DialogBench에서 동일한 경향을 보임.
  • 사전 훈련 LLM
    • LLaMA2-70B(영어)와 Baichuan2-13B(중국어)와 같은 일부 사전 훈련 LLM이 좋은 성능을 발휘함.
    • 그러나 다른 LLM들은 인간과 유사한 능력과 관련된 세부적인 능력에서 개선 여지가 남아 있음.
  • 정확성
    • 대부분의 사전 훈련 LLM이 슬롯 채우기(SF) 작업에서 잘 수행하나, 나머지 3개의 작업에서는 상대적으로 낮은 성과를 보임.
  • 개인화 일관성
    • 감정 인식(ED)에서 좋은 성능을 보이나, 성격 반영(PRG)에서는 성능이 부진함.
  • 의미 일관성
    • 대화 요약(DS)에서 양호한 성능을 보이며, 이는 의미 일치를 잘 유지함을 나타냄.
    • 그러나 대화 NLI에서 일회성 추론이 필요한 경우에는 부족한 성과를 보임.
  • 일관성
    • 대화 채우기(DI)와 다중 턴 응답 생성(MRG)에서 LLM의 평균 성과가 유사하며, 개선의 여지가 존재함.
  • 공격 감지
    • 대부분의 사전 훈련 LLM이 공격 감지(OD) 능력을 갖춤.
  • 결론
    • 현재 사전 훈련 LLM은 정확성 관련 작업에서 비교적 좋은 성능을 보이며, 일관성 및 안전 관련 작업에서는 더 많은 개선이 필요함.
    • 일관성 관련 작업에 대해 사전 훈련 LLM은 지속적인 최적화가 요구됨.
  • 지도 학습 LLM
    • GPT-4가 가장 우수한 성능을 보이며, 인간과 유사한 대화 시스템으로서의 능력을 잘 나타냄.
    • 지도 학습 LLM이 대부분의 대화 작업에서 사전 훈련 LLM보다 높은 점수를 기록함.
  • 결과 요약
    • 정확성, 개인화 일관성, 일관성 및 안전성에서 지도 학습 LLM의 성능은 여전히 향상 가능성이 크며, 사전 훈련 LLM과 유사한 경향을 보임.

6 Further Discussion

  • LLMs의 성능 분석 및 조정

    image

    • 다양한 도메인에서 LLM의 성능을 검토하고, 대화 스타일 조정 및 필터링 메커니즘 도입의 효과를 검증함.
  • 다른 도메인에서의 성능
    • 각 도메인에서의 모든 감독된 지시 조정 LLM의 평균 정확도를 계산하여 결론 도출.
    • 일상 생활에서의 평균 성능은 전문 지식에 비해 낮음 (예: 52.14% 대 56.07%).
    • 이는 LLM의 현재 역할이 보조 AI로 설정되어 있어, 다양한 전문 지식을 잘 숙지해야 함.
    • 인간의 일상적인 정보가 LLM의 미세 조정 시 과소평가되고 있을 가능성 제기.
    • LLM의 인간과 같은 대화 시스템 개선을 위해 더 많은 일상 대화를 도입해야 함.
  • Ablation Study

    image

    • 구성 요소의 효과를 검증하기 위한 실험 시행:
      1. 프롬프트에서 스타일 편향 완화 설명 삭제 (-Styles).
      2. 필터 메커니즘 삭제 (-Filter).
    • GPT-4를 이용하여 실험 실시, 결과는 표 4에 제시됨.
      • (1) 스타일 편향을 완화하지 않았을 때 정확도가 개선됨, 비우호적인 소통이 상호작용의 어려움을 증가시킴을 확인.
      • (2) 필터링된 사례가 부정확함을 나타내며, LLM이 답변할 수 없는 사례가 존재함을 나타냄.

7 Conclusion

  • DialogBench 소개:
    • LLM(대형 언어 모델)을 인간과 유사한 대화 시스템으로 평가하기 위한 체계적으로 설계된 대화 벤치마크.
    • 12개의 대화 작업을 포함하여 인간 유사성 관련 능력을 평가.
  • 평가 방법론 및 데이터 생성:
    • GPT-4를 사용하여 평가 인스턴스를 생성.
    • 일반적인 설계 원칙을 기반으로 기본 프롬프트를 설계하고, 기존의 편견을 제거하여 고품질 인스턴스를 생성.
  • 대상 모델:
    • 26개의 LLM 대상 연구 실시, 중국어 및 영어 DialogBench에서 사전 훈련 및 감독된 지침 조정 모델 포함.
  • 결과 및 발견:
    • 지도형 조정은 LLM의 인간 유사성을 향상시킬 수 있지만, 대부분의 LLM은 여전히 인간과 유사한 대화 시스템으로서 개선이 필요.
    • LLM은 일반적으로 문맥 이해에 뛰어나지만, 감정과 성격 인식에는 상대적으로 미흡함.
  • 미래 연구 방향:
    • DialogBench가 보다 나은 인간 유사 LLM 개발의 기초가 될 것으로 기대.
  • 제한 사항:
    • 다국어 벤치마크의 확장성 부족: 중국어 및 영어 LLM만 평가 가능.
    • 최종 검토에서 GPT-4의 한계(논리적 추론의 제한, 출력 길이 제한, 유해 콘텐츠 생성 등) 강조.
    • 경기 시간과 재정적 자원의 한계로 인해 70B 이상의 모델 포함 불가.
  • 윤리적 고려사항:
    • GPT-4는 온라인 데이터를 기반으로 훈련되어 특정 언어 또는 커뮤니티에 대한 편견을 지속할 수 있는 잠재성.
    • 비우호적 시나리오에서의 LLM 평가를 위해 일부 비호전적 대화 생성을 유도함으로써 필요.
  • 감사의 말씀:
    • 익명의 심사자들에 대한 감사.

8 Limitations

  • 다국어 벤치마크 확장:
    • DialogBench는 영어와 중국어 LLM만 평가 가능하며, 다른 언어는 지원하지 않음.
    • 하지만 제안된 평가 프레임워크는 모든 LLM 평가에 적용 가능.
  • 추가 차원 및 대화 작업:
    • 인간과 유사한 대화 시스템을 위해서는 다양한 세부 능력이 필요함.
    • 문헌 참고를 통해 포괄적인 차원 및 대화 작업을 선택했으나, 일부는 포함되지 않았음.
    • GPT-4를 데이터 생성기로 사용하며, 이는 차원 및 작업 선택에 제약을 둠.
    • GPT-4의 제한(제한된 추론, 출력 길이 제한, 독성 콘텐츠 생성 등)을 인식하고 있음.
  • 기술적 제한:
    • 계산 및 재정 자원이 제한되어 있어 DialogBench 초기 평가판에는 70B 이하의 사전 훈련 LLM 및 20B 이하의 감독 지시 조정 LLM 중 일부만 포함됨.
    • 최신 연구에 따르면 LLM이 일정 기준을 초과하면 새로운 능력을 나타낼 가능성이 있지만, 모든 매우 큰 언어 모델을 테스트할 수는 없었음.
  • 폐쇄형 액세스 모델의 재현성:
    • 평가된 LLM(예: ChatGPT, GPT-4)은 프로그래밍 인터페이스를 통해서만 접근 가능함.
    • 이 인터페이스 뒤의 메커니즘은 언제든지 변경될 수 있으므로, 다른 시기에 따른 평가 결과는 다를 수 있음.
  • 윤리적 고려:
    • GPT-4는 온라인 데이터로 훈련되어 특정 언어나 커뮤니티의 고정관념, 차별을 지속할 수 있는 편향을 내포할 수 있음.
    • DialogBench가 생성하는 대화가 독성 및 유해한 인스턴스를 포함할 가능성이 있음.

9 Ethics Statement

  • GPT-4는 온라인 데이터를 기반으로 훈련되어, 특정 언어 또는 커뮤니티에 대한 편견을 강화할 수 있는 가능성이 있음.
  • 이로 인해 DialogBench가 생성하는 내용 중 일부는 유해하거나 공격적인 인스턴스가 될 수 있음.
  • 평가 과정에서 우호적이지 않은 대화의 일부를 의도적으로 포함시켜 LLM을 평가하여 인간과 유사한 대화 시스템의 실제 수준을 반영하려 함.
  • 이러한 접근 방식은 비친절하거나 유해한 예제 생성으로 이어질 수 있음.
  • 평가 질문에 대한 수작업 검토를 위해 세 명의 전문가를 고용하였으며, 각 인스턴스당 0.2의 비용을 지급함.

독자 의견

  • 최근의 LLM연구들은 인간평가 또한 중요하게 여겨지는데, 이를 LLM을 사용하여 자동평가로 바꾸는 것은 연구자들에게 매우 필요한 것이다.
  • 데이터셋을 인간 어노테이터 없이 생성하는 것도 연구의 비용을 줄이는데에 큰 도움이 될 수 있다.
  • 본 논문은 사람의 발화와 비슷한 대화를 생성하는 LLM을 평가하기 위한 벤치마크를 제안하였다.
  • “사람 다운” LLM이 어떻게 정의될 수 있는지에 대해서는 논란이 있을 수 있다.
  • 하지만 LLM을 사용한 벤치마크를 구성한 시도와 방법론은 다른 연구를 수행할 때 큰 도움이 될 것이다.

Comments