[논문리뷰] DialogBench: Evaluating LLMs as Human-like Dialogue Systems (NAACL 2024)

9 minute read

요약: 본 논문에서는 대화 시스템의 인간 같은 특성을 평가하기 위한 12개의 대화 과제가 포함된 DialogBench라는 벤치마크를 제안하며, instruction tuning이 대형 언어 모델의 인간 유사성을 어느 정도 향상시키지만 여전히 개선 여지가 많음을 보여준다.

1 Introduction

대규모 언어 모델(LLMs)은 새로운 대화 능력을 통해 놀라운 발전을 이루었음.
이러한 능력은 인간이 LLM과 자연스럽게 상호작용할 수 있게 해 주며, 대화 시스템에 대한 인간의 인식을 변화시킴.
대화 시스템의 목표는 LLM이 인간과 유사하게 되어 사용자와 장기적인 관계를 형성하는 것임.
인간 유사성은 대화 맥락을 올바르게 이해하고, 관련 지식을 적절히 활용하며, 필요시 사용자의 감정과 성격을 인식하고, 대화 맥락에 일치하는 친근하고 합리적인 응답을 생성하는 등의 능력을 포함함.
그러나 인간 유사성의 향상이 기존 LLM 벤치마크 점수에 반영되지 않음.
현재 LLM 벤치마크는 주로 과제 완료 능력을 평가하는 데 초점을 맞추며, 인간과의 장기적 연결 능력에는 중점을 두지 않음.
따라서 LLM의 인간 유사성과 관련된 능력을 평가하는 심층 벤치마크가 필요함.
이상적인 접근은 실제 인간의 고품질 대화를 수집하는 것이나, 대부분의 대화는 LLM의 사전 훈련 동안 유출되었을 가능성이 있음.
“데이터 유출”을 방지하기 위해, 평가 벤치마크는 새로운 평가 사례를 포함하고 자주 업데이트되어야 함.
인간 작성의 어려움으로 인해, 새로운 인간 간의 대화를 자동으로 생성해야 함.
GPT-4를 활용하여 대량의 평가 사례를 생성하는 방법을 탐구함.
이 논문에서는 GPT-4를 데이터 생성기로 사용하는 새롭고 포괄적인 대화 평가 벤치마크인 DialogBench를 제안함.
감정 표현이나 상식 사용이 포함되지 않을 수 있으므로, 다양한 세분화된 능력에 대한 평가 사례를 생성함.
12개의 대화 작업을 선택하여 LLM이 수행하는 데 필요한 최소한의 능력을 요구함.
각 작업에 대해 GPT-4에 평가 사례 생성을 요청함.
이를 통해 영어 및 중국어 대화 평가 벤치마크를 구축함.
26개의 LLM을 DialogBench를 사용하여 종합적으로 평가함.
실험 결과는 지도가 있는 교육이 LLM의 인간 유사성을 향상시킬 수 있음을 보여줌.
최상위 모델은 다양한 대화 작업을 잘 수행할 수 있으며, LLM을 인간과 유사한 대화 시스템으로 발전시킬 가능성을 나타냄.
그러나 최상위 모델과 다른 LLM 간에는 성능 격차가 크며, 감정과 성격 인식 능력이 상대적으로 낮음을 관찰함.

LLM 평가:
- LLM의 강점과 한계를 이해하기 위해 여러 평가 기준이 제안됨.
- 평가 기준은 주로 LLM의 보조 AI로서의 작업 완료 능력을 평가함.
- 주요 카테고리:
  - 종합 평가 기준: 여러 NLP 작업을 종합적으로 평가 (Liang et al., 2022 외).
  - 인간 중심 평가 기준: 자격 시험을 통해 인간 중심 시나리오에서 평가 (Zeng, 2023 외).
  - 특별 능력 평가 기준: 고급 능력에 대한 강조 (Ahn et al., 2022 외).
- 다양한 평가 기준이 존재하지만 LLM을 인간과 유사한 대화 시스템으로 포괄적으로 평가하는 기준은 없음.
대화 평가 기준:
- 대화 능력을 평가하기 위한 여러 기준 존재 (Reddy et al., 2019 외).
- 이러한 기준은 관련 훈련 세트에서 세부 조정된 언어 모델을 평가 가능하지만, 지시를 따르는 LLM을 직접 평가할 수 없음.
- 이전 기준은 LLM의 사전 훈련 중 유출되었을 가능성 존재.
- DialogBench: 자연어로 구성된 새로운 평가 사례가 포함되어 LLM을 직접 평가할 수 있음.
- Zheng et al. (2023)은 LLM의 멀티 턴 지시 따르기 능력을 평가, 인간 선호와의 정렬 평가에 중점.
- 최근 연구들은 GPT-4 또는 ChatGPT의 인간 유사성에 초점을 맞춤.
데이터 생성 위한 LLM 사용:
- 여러 최신 연구들이 GPT-4를 활용하여 데이터 생성 (Whitehouse et al., 2023 외).
- 일반적으로 몇 가지 훈련 사례를 사용해 더 많은 훈련 인스턴스를 생성하는 방식.
- 반면, 본 연구는 GPT-4를 활용하여 평가 기준 구축을 위한 새로운 평가 인스턴스를 생성함.

3 DialogBench

3.1 Task Selection

LLM(대형 언어 모델)의 인간 유사성을 평가하기 위한 주요 차원:
- 일관성 (coherence)
- 일관성 (consistency)
- 정확성 (correctness)
- 안전성 (safety)
LLM은 다양성과 유창성에서 큰 발전을 이루었으며, 이제 정확성과 안전성에 대한 요구 사항이 증가함.
각 평가 차원을 기반으로 작업을 선택하며, 이는 작업 완료의 질을 통해 반영됨.
12개의 대화 작업을 세밀하게 정리함.
작업 선택 과정 및 정의는 부록 A에 제시됨.
전체 선택 결과는 그림 2에 나와 있음.

3.2 Question Setting

선택된 과제는 이해 과제와 생성 과제를 포함.
각 과제에 따른 평가 지표가 다름.
평가를 통합하기 위해 기존 벤치마크를 따름 (Li et al., 2023a; Hendrycks et al., 2021; Huang et al., 2023).
다중 선택 질문을 채택하고 정확도를 평가 지표로 사용.
평가 인스턴스는 LLM이 다중 전환 대화 컨텍스트를 기반으로 주어진 테스트 질문에 대한 정답 후보에서 올바른 답안을 선택하도록 요구.
질문 템플릿은 Figure 4에 표시됨.

3.3 Prompt Formatting

잘 설계된 프롬프트는 높은 품질의 평가 인스턴스를 생성하는 데 도움을 줌.
Zhao et al. (2023a)의 프롬프트 디자인에 따라 프롬프트를 생성함.
- 네 가지 주요 성분과 몇 가지 기본 설계 원칙을 요약.
슬롯 채우기를 예로 들어 프롬프트 생성 과정을 설명.
- 핵심 내용을 명확히 하고, 이를 기본 설계 원칙에 따라 효과적인 프롬프트로 통합.
자세한 생성 과정은 부록 B에 설명됨.
최종 프롬프트는 네 가지 성분의 내용을 연결한 문자열로 구성됨. (그림 3 참조)

3.4 Quality Control

생성된 평가 인스턴스에서 여러 가지 편향과 낮은 품질을 관찰함.
이를 완화하고 필터링 메커니즘을 제시함.
최적화된 프롬프트는 모든 작업에 대해 제시됨 (표 9-20 참조).

기본 프롬프트 구성

목표 설명: 다중 턴 대화에서 슬롯 필링을 위한 주석 처리 능력을 테스트 중.
생성 단계: 슬롯 유형을 설정하고 10턴(20발화) 대화를 생성하며 슬롯 필링에 대한 질문을 작성.
입력 데이터: 자연어로 연속적인 상호작용이 이루어진 대화 기록.
문맥 정보: 각 대화에 대한 도메인 및 스타일 정보를 포함하여 질문 설정.

편향 완화 메커니즘

도메인 편향 완화:
- 각 도메인의 인스턴스를 균형 유지하며, 20개의 주요 도메인을 설정하여 고르게 분포하도록 함.
- 데이터 부족한 도메인에 대한 정확성을 향상시키기 위해 수작업으로 구성됨.
스타일 편향 완화:
- 생성된 대화의 친근한, 중립적, 불친절한 스타일 분석.
- 불친절한 대화 스타일을 일정 비율로 생성하도록 기본 프롬프트를 최적화하며, 다양한 상호작용 시나리오를 반영함.
위치 편향 완화:
- 다중 선택 질문에서 정답의 위치가 고르게 분포되지 않음.
- 정답의 위치를 무작위로 배정하여 편향을 감소시킴.

데이터 필터링

낮은 품질의 인스턴스가 포함된 평가 세트를 정제하기 위해 GPT-4를 활용.
다중 선택 질문의 정확성을 검토하고 올바른 것으로 판단되는 인스턴스만 유지함.
평균 필터링 비율은 10.08%로 나타남.

결론

다양한 편향을 완화하기 위한 프롬프트 최적화 및 필터링을 통해 품질 높은 대화 인스턴스를 생성하는 것을 목표로 함.

4 Experimental Setup

데이터셋 통계
- DialogBench의 통계는 Table 1에 보고됨.
- 각 작업의 약어를 사용하여 간단하게 설명.
평가할 LLMs
- 총 26개의 모델 평가 (Appendix D.1의 Table 6).
- 두 가지 범주로 분류:
  1. 사전 훈련된 LLMs: 주로 LLaMA 모델 변형 및 academia와 기업에서 훈련된 모델.
  2. 지도 Instruction-tuning LLMs: 주로 academia와 기업에서 출시, GPT-4와 ChatGPT 제외하고 오픈 소스 LLM.
- 인간 수준 평가:
  - 각 작업에서 50개의 평가 인스턴스를 무작위로 선택, 3명의 전문가가 답변.
  - 최소 2명이 정답을 맞힌 경우 해당 질문을 올바른 것으로 간주.
평가 방법
- LLMs에 대해 정확도를 메트릭으로 사용하고 두 가지 평가 방법 사용:
  1. 사전 훈련된 LLMs: 각 옵션 내용을 독립적으로 점수화.
    - 대화와 질문을 프롬프트로 사용해 “옵션 콘텐츠”의 확률 계산.
    - 퍼플렉시티를 계산하여 가장 낮은 퍼플렉시티의 레이블을 예측 답변으로 선택.
  2. 지도 Instruction-tuning LLMs: 주어진 대화를 사용자와 LLM 간의 대화 기록으로 간주.
    - 명령어, 질문 및 모든 옵션을 합쳐 질문을 생성하고 LLM이 옵션 레이블을 제공.
실행 세부사항
- GPT-4를 사용할 때 평가 인스턴스 생성을 위한 파라미터 설정:
  - 온도: 1, presence_penalty: 0.6, frequency_penalty: 0 등.
- LLM 평가 시:
  - ChatGPT 및 GPT-4의 온도: 0, presence_penalty: 0.6, frequency_penalty: 0 설정.
  - 오픈 소스 모델의 온도: 0, max_new_tokens: 256 설정.
- 사용된 ChatGPT 및 GPT-4 버전: gpt-3.5-turbo-0613, gpt-4-0314.
- Pytorch 및 Huggingface를 사용하여 구현.
- A100 80GB GPU에서 실험, 각 작업을 추론하는 데 평균 20분에서 2시간 소요.
- 평가 프롬프트는 Appendix D.2에 기재.

5 Main Results

총 점수 및 작업별 점수
- 영어 DialogBench에서의 모든 LLM의 전체 점수가 중국 DialogBench보다 약간 높은 것으로 나타남.
- 각 작업에 대한 LLM의 성능은 영어와 중국 DialogBench에서 동일한 경향을 보임.
사전 훈련 LLM
- LLaMA2-70B(영어)와 Baichuan2-13B(중국어)와 같은 일부 사전 훈련 LLM이 좋은 성능을 발휘함.
- 그러나 다른 LLM들은 인간과 유사한 능력과 관련된 세부적인 능력에서 개선 여지가 남아 있음.
정확성
- 대부분의 사전 훈련 LLM이 슬롯 채우기(SF) 작업에서 잘 수행하나, 나머지 3개의 작업에서는 상대적으로 낮은 성과를 보임.
개인화 일관성
- 감정 인식(ED)에서 좋은 성능을 보이나, 성격 반영(PRG)에서는 성능이 부진함.
의미 일관성
- 대화 요약(DS)에서 양호한 성능을 보이며, 이는 의미 일치를 잘 유지함을 나타냄.
- 그러나 대화 NLI에서 일회성 추론이 필요한 경우에는 부족한 성과를 보임.
일관성
- 대화 채우기(DI)와 다중 턴 응답 생성(MRG)에서 LLM의 평균 성과가 유사하며, 개선의 여지가 존재함.
공격 감지
- 대부분의 사전 훈련 LLM이 공격 감지(OD) 능력을 갖춤.
결론
- 현재 사전 훈련 LLM은 정확성 관련 작업에서 비교적 좋은 성능을 보이며, 일관성 및 안전 관련 작업에서는 더 많은 개선이 필요함.
- 일관성 관련 작업에 대해 사전 훈련 LLM은 지속적인 최적화가 요구됨.
지도 학습 LLM
- GPT-4가 가장 우수한 성능을 보이며, 인간과 유사한 대화 시스템으로서의 능력을 잘 나타냄.
- 지도 학습 LLM이 대부분의 대화 작업에서 사전 훈련 LLM보다 높은 점수를 기록함.
결과 요약
- 정확성, 개인화 일관성, 일관성 및 안전성에서 지도 학습 LLM의 성능은 여전히 향상 가능성이 크며, 사전 훈련 LLM과 유사한 경향을 보임.

6 Further Discussion

LLMs의 성능 분석 및 조정
- 다양한 도메인에서 LLM의 성능을 검토하고, 대화 스타일 조정 및 필터링 메커니즘 도입의 효과를 검증함.
다른 도메인에서의 성능
- 각 도메인에서의 모든 감독된 지시 조정 LLM의 평균 정확도를 계산하여 결론 도출.
- 일상 생활에서의 평균 성능은 전문 지식에 비해 낮음 (예: 52.14% 대 56.07%).
- 이는 LLM의 현재 역할이 보조 AI로 설정되어 있어, 다양한 전문 지식을 잘 숙지해야 함.
- 인간의 일상적인 정보가 LLM의 미세 조정 시 과소평가되고 있을 가능성 제기.
- LLM의 인간과 같은 대화 시스템 개선을 위해 더 많은 일상 대화를 도입해야 함.
Ablation Study
- 구성 요소의 효과를 검증하기 위한 실험 시행:
  1. 프롬프트에서 스타일 편향 완화 설명 삭제 (-Styles).
  2. 필터 메커니즘 삭제 (-Filter).
- GPT-4를 이용하여 실험 실시, 결과는 표 4에 제시됨.
  - (1) 스타일 편향을 완화하지 않았을 때 정확도가 개선됨, 비우호적인 소통이 상호작용의 어려움을 증가시킴을 확인.
  - (2) 필터링된 사례가 부정확함을 나타내며, LLM이 답변할 수 없는 사례가 존재함을 나타냄.

7 Conclusion

DialogBench 소개:
- LLM(대형 언어 모델)을 인간과 유사한 대화 시스템으로 평가하기 위한 체계적으로 설계된 대화 벤치마크.
- 12개의 대화 작업을 포함하여 인간 유사성 관련 능력을 평가.
평가 방법론 및 데이터 생성:
- GPT-4를 사용하여 평가 인스턴스를 생성.
- 일반적인 설계 원칙을 기반으로 기본 프롬프트를 설계하고, 기존의 편견을 제거하여 고품질 인스턴스를 생성.
대상 모델:
- 26개의 LLM 대상 연구 실시, 중국어 및 영어 DialogBench에서 사전 훈련 및 감독된 지침 조정 모델 포함.
결과 및 발견:
- 지도형 조정은 LLM의 인간 유사성을 향상시킬 수 있지만, 대부분의 LLM은 여전히 인간과 유사한 대화 시스템으로서 개선이 필요.
- LLM은 일반적으로 문맥 이해에 뛰어나지만, 감정과 성격 인식에는 상대적으로 미흡함.
미래 연구 방향:
- DialogBench가 보다 나은 인간 유사 LLM 개발의 기초가 될 것으로 기대.
제한 사항:
- 다국어 벤치마크의 확장성 부족: 중국어 및 영어 LLM만 평가 가능.
- 최종 검토에서 GPT-4의 한계(논리적 추론의 제한, 출력 길이 제한, 유해 콘텐츠 생성 등) 강조.
- 경기 시간과 재정적 자원의 한계로 인해 70B 이상의 모델 포함 불가.
윤리적 고려사항:
- GPT-4는 온라인 데이터를 기반으로 훈련되어 특정 언어 또는 커뮤니티에 대한 편견을 지속할 수 있는 잠재성.
- 비우호적 시나리오에서의 LLM 평가를 위해 일부 비호전적 대화 생성을 유도함으로써 필요.
감사의 말씀:
- 익명의 심사자들에 대한 감사.

8 Limitations

다국어 벤치마크 확장:
- DialogBench는 영어와 중국어 LLM만 평가 가능하며, 다른 언어는 지원하지 않음.
- 하지만 제안된 평가 프레임워크는 모든 LLM 평가에 적용 가능.
추가 차원 및 대화 작업:
- 인간과 유사한 대화 시스템을 위해서는 다양한 세부 능력이 필요함.
- 문헌 참고를 통해 포괄적인 차원 및 대화 작업을 선택했으나, 일부는 포함되지 않았음.
- GPT-4를 데이터 생성기로 사용하며, 이는 차원 및 작업 선택에 제약을 둠.
- GPT-4의 제한(제한된 추론, 출력 길이 제한, 독성 콘텐츠 생성 등)을 인식하고 있음.
기술적 제한:
- 계산 및 재정 자원이 제한되어 있어 DialogBench 초기 평가판에는 70B 이하의 사전 훈련 LLM 및 20B 이하의 감독 지시 조정 LLM 중 일부만 포함됨.
- 최신 연구에 따르면 LLM이 일정 기준을 초과하면 새로운 능력을 나타낼 가능성이 있지만, 모든 매우 큰 언어 모델을 테스트할 수는 없었음.
폐쇄형 액세스 모델의 재현성:
- 평가된 LLM(예: ChatGPT, GPT-4)은 프로그래밍 인터페이스를 통해서만 접근 가능함.
- 이 인터페이스 뒤의 메커니즘은 언제든지 변경될 수 있으므로, 다른 시기에 따른 평가 결과는 다를 수 있음.
윤리적 고려:
- GPT-4는 온라인 데이터로 훈련되어 특정 언어나 커뮤니티의 고정관념, 차별을 지속할 수 있는 편향을 내포할 수 있음.
- DialogBench가 생성하는 대화가 독성 및 유해한 인스턴스를 포함할 가능성이 있음.

9 Ethics Statement

GPT-4는 온라인 데이터를 기반으로 훈련되어, 특정 언어 또는 커뮤니티에 대한 편견을 강화할 수 있는 가능성이 있음.
이로 인해 DialogBench가 생성하는 내용 중 일부는 유해하거나 공격적인 인스턴스가 될 수 있음.
평가 과정에서 우호적이지 않은 대화의 일부를 의도적으로 포함시켜 LLM을 평가하여 인간과 유사한 대화 시스템의 실제 수준을 반영하려 함.
이러한 접근 방식은 비친절하거나 유해한 예제 생성으로 이어질 수 있음.
평가 질문에 대한 수작업 검토를 위해 세 명의 전문가를 고용하였으며, 각 인스턴스당 0.2의 비용을 지급함.

독자 의견

최근의 LLM연구들은 인간평가 또한 중요하게 여겨지는데, 이를 LLM을 사용하여 자동평가로 바꾸는 것은 연구자들에게 매우 필요한 것이다.
데이터셋을 인간 어노테이터 없이 생성하는 것도 연구의 비용을 줄이는데에 큰 도움이 될 수 있다.
본 논문은 사람의 발화와 비슷한 대화를 생성하는 LLM을 평가하기 위한 벤치마크를 제안하였다.
“사람 다운” LLM이 어떻게 정의될 수 있는지에 대해서는 논란이 있을 수 있다.
하지만 LLM을 사용한 벤치마크를 구성한 시도와 방법론은 다른 연구를 수행할 때 큰 도움이 될 것이다.

Hanyong Lee

[논문리뷰] DialogBench: Evaluating LLMs as Human-like Dialogue Systems (NAACL 2024)

1 Introduction

3 DialogBench

3.1 Task Selection

3.2 Question Setting

3.3 Prompt Formatting

3.4 Quality Control

기본 프롬프트 구성

편향 완화 메커니즘

데이터 필터링

결론

4 Experimental Setup

5 Main Results

6 Further Discussion

7 Conclusion

8 Limitations

9 Ethics Statement

독자 의견

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)

Hanyong Lee

1 Introduction

2 Related Work

3 DialogBench

3.1 Task Selection

3.2 Question Setting

3.3 Prompt Formatting

3.4 Quality Control

기본 프롬프트 구성

편향 완화 메커니즘

데이터 필터링

결론

4 Experimental Setup

5 Main Results

6 Further Discussion

7 Conclusion

8 Limitations

9 Ethics Statement

독자 의견

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)