[논문리뷰] DialogBench: Evaluating LLMs as Human-like Dialogue Systems (NAACL 2024)
요약: 본 논문에서는 대화 시스템의 인간 같은 특성을 평가하기 위한 12개의 대화 과제가 포함된 DialogBench라는 벤치마크를 제안하며, instruction tuning이 대형 언어 모델의 인간 유사성을 어느 정도 향상시키지만 여전히 개선 여지가 많음을 보여준다.
1 Introduction
- 대규모 언어 모델(LLMs)은 새로운 대화 능력을 통해 놀라운 발전을 이루었음.
- 이러한 능력은 인간이 LLM과 자연스럽게 상호작용할 수 있게 해 주며, 대화 시스템에 대한 인간의 인식을 변화시킴.
- 대화 시스템의 목표는 LLM이 인간과 유사하게 되어 사용자와 장기적인 관계를 형성하는 것임.
- 인간 유사성은 대화 맥락을 올바르게 이해하고, 관련 지식을 적절히 활용하며, 필요시 사용자의 감정과 성격을 인식하고, 대화 맥락에 일치하는 친근하고 합리적인 응답을 생성하는 등의 능력을 포함함.
- 그러나 인간 유사성의 향상이 기존 LLM 벤치마크 점수에 반영되지 않음.
- 현재 LLM 벤치마크는 주로 과제 완료 능력을 평가하는 데 초점을 맞추며, 인간과의 장기적 연결 능력에는 중점을 두지 않음.
- 따라서 LLM의 인간 유사성과 관련된 능력을 평가하는 심층 벤치마크가 필요함.
- 이상적인 접근은 실제 인간의 고품질 대화를 수집하는 것이나, 대부분의 대화는 LLM의 사전 훈련 동안 유출되었을 가능성이 있음.
- “데이터 유출”을 방지하기 위해, 평가 벤치마크는 새로운 평가 사례를 포함하고 자주 업데이트되어야 함.
- 인간 작성의 어려움으로 인해, 새로운 인간 간의 대화를 자동으로 생성해야 함.
- GPT-4를 활용하여 대량의 평가 사례를 생성하는 방법을 탐구함.
- 이 논문에서는 GPT-4를 데이터 생성기로 사용하는 새롭고 포괄적인 대화 평가 벤치마크인 DialogBench를 제안함.
- 감정 표현이나 상식 사용이 포함되지 않을 수 있으므로, 다양한 세분화된 능력에 대한 평가 사례를 생성함.
- 12개의 대화 작업을 선택하여 LLM이 수행하는 데 필요한 최소한의 능력을 요구함.
- 각 작업에 대해 GPT-4에 평가 사례 생성을 요청함.
- 이를 통해 영어 및 중국어 대화 평가 벤치마크를 구축함.
- 26개의 LLM을 DialogBench를 사용하여 종합적으로 평가함.
- 실험 결과는 지도가 있는 교육이 LLM의 인간 유사성을 향상시킬 수 있음을 보여줌.
- 최상위 모델은 다양한 대화 작업을 잘 수행할 수 있으며, LLM을 인간과 유사한 대화 시스템으로 발전시킬 가능성을 나타냄.
- 그러나 최상위 모델과 다른 LLM 간에는 성능 격차가 크며, 감정과 성격 인식 능력이 상대적으로 낮음을 관찰함.
2 Related Work
- LLM 평가:
- LLM의 강점과 한계를 이해하기 위해 여러 평가 기준이 제안됨.
- 평가 기준은 주로 LLM의 보조 AI로서의 작업 완료 능력을 평가함.
- 주요 카테고리:
- 종합 평가 기준: 여러 NLP 작업을 종합적으로 평가 (Liang et al., 2022 외).
- 인간 중심 평가 기준: 자격 시험을 통해 인간 중심 시나리오에서 평가 (Zeng, 2023 외).
- 특별 능력 평가 기준: 고급 능력에 대한 강조 (Ahn et al., 2022 외).
- 다양한 평가 기준이 존재하지만 LLM을 인간과 유사한 대화 시스템으로 포괄적으로 평가하는 기준은 없음.
- 대화 평가 기준:
- 대화 능력을 평가하기 위한 여러 기준 존재 (Reddy et al., 2019 외).
- 이러한 기준은 관련 훈련 세트에서 세부 조정된 언어 모델을 평가 가능하지만, 지시를 따르는 LLM을 직접 평가할 수 없음.
- 이전 기준은 LLM의 사전 훈련 중 유출되었을 가능성 존재.
- DialogBench: 자연어로 구성된 새로운 평가 사례가 포함되어 LLM을 직접 평가할 수 있음.
- Zheng et al. (2023)은 LLM의 멀티 턴 지시 따르기 능력을 평가, 인간 선호와의 정렬 평가에 중점.
- 최근 연구들은 GPT-4 또는 ChatGPT의 인간 유사성에 초점을 맞춤.
- 데이터 생성 위한 LLM 사용:
- 여러 최신 연구들이 GPT-4를 활용하여 데이터 생성 (Whitehouse et al., 2023 외).
- 일반적으로 몇 가지 훈련 사례를 사용해 더 많은 훈련 인스턴스를 생성하는 방식.
- 반면, 본 연구는 GPT-4를 활용하여 평가 기준 구축을 위한 새로운 평가 인스턴스를 생성함.
3 DialogBench
3.1 Task Selection
- LLM(대형 언어 모델)의 인간 유사성을 평가하기 위한 주요 차원:
- 일관성 (coherence)
- 일관성 (consistency)
- 정확성 (correctness)
- 안전성 (safety)
- LLM은 다양성과 유창성에서 큰 발전을 이루었으며, 이제 정확성과 안전성에 대한 요구 사항이 증가함.
- 각 평가 차원을 기반으로 작업을 선택하며, 이는 작업 완료의 질을 통해 반영됨.
- 12개의 대화 작업을 세밀하게 정리함.
- 작업 선택 과정 및 정의는 부록 A에 제시됨.
- 전체 선택 결과는 그림 2에 나와 있음.
3.2 Question Setting
- 선택된 과제는 이해 과제와 생성 과제를 포함.
- 각 과제에 따른 평가 지표가 다름.
- 평가를 통합하기 위해 기존 벤치마크를 따름 (Li et al., 2023a; Hendrycks et al., 2021; Huang et al., 2023).
- 다중 선택 질문을 채택하고 정확도를 평가 지표로 사용.
- 평가 인스턴스는 LLM이 다중 전환 대화 컨텍스트를 기반으로 주어진 테스트 질문에 대한 정답 후보에서 올바른 답안을 선택하도록 요구.
- 질문 템플릿은 Figure 4에 표시됨.
3.3 Prompt Formatting
- 잘 설계된 프롬프트는 높은 품질의 평가 인스턴스를 생성하는 데 도움을 줌.
- Zhao et al. (2023a)의 프롬프트 디자인에 따라 프롬프트를 생성함.
- 네 가지 주요 성분과 몇 가지 기본 설계 원칙을 요약.
- 슬롯 채우기를 예로 들어 프롬프트 생성 과정을 설명.
- 핵심 내용을 명확히 하고, 이를 기본 설계 원칙에 따라 효과적인 프롬프트로 통합.
- 자세한 생성 과정은 부록 B에 설명됨.
- 최종 프롬프트는 네 가지 성분의 내용을 연결한 문자열로 구성됨. (그림 3 참조)
3.4 Quality Control
- 생성된 평가 인스턴스에서 여러 가지 편향과 낮은 품질을 관찰함.
- 이를 완화하고 필터링 메커니즘을 제시함.
- 최적화된 프롬프트는 모든 작업에 대해 제시됨 (표 9-20 참조).
기본 프롬프트 구성
- 목표 설명: 다중 턴 대화에서 슬롯 필링을 위한 주석 처리 능력을 테스트 중.
- 생성 단계: 슬롯 유형을 설정하고 10턴(20발화) 대화를 생성하며 슬롯 필링에 대한 질문을 작성.
- 입력 데이터: 자연어로 연속적인 상호작용이 이루어진 대화 기록.
- 문맥 정보: 각 대화에 대한 도메인 및 스타일 정보를 포함하여 질문 설정.
편향 완화 메커니즘
- 도메인 편향 완화:
- 각 도메인의 인스턴스를 균형 유지하며, 20개의 주요 도메인을 설정하여 고르게 분포하도록 함.
- 데이터 부족한 도메인에 대한 정확성을 향상시키기 위해 수작업으로 구성됨.
- 스타일 편향 완화:
- 생성된 대화의 친근한, 중립적, 불친절한 스타일 분석.
- 불친절한 대화 스타일을 일정 비율로 생성하도록 기본 프롬프트를 최적화하며, 다양한 상호작용 시나리오를 반영함.
- 위치 편향 완화:
- 다중 선택 질문에서 정답의 위치가 고르게 분포되지 않음.
- 정답의 위치를 무작위로 배정하여 편향을 감소시킴.
데이터 필터링
- 낮은 품질의 인스턴스가 포함된 평가 세트를 정제하기 위해 GPT-4를 활용.
- 다중 선택 질문의 정확성을 검토하고 올바른 것으로 판단되는 인스턴스만 유지함.
- 평균 필터링 비율은 10.08%로 나타남.
결론
- 다양한 편향을 완화하기 위한 프롬프트 최적화 및 필터링을 통해 품질 높은 대화 인스턴스를 생성하는 것을 목표로 함.
4 Experimental Setup
- 데이터셋 통계
- DialogBench의 통계는 Table 1에 보고됨.
- 각 작업의 약어를 사용하여 간단하게 설명.
- 평가할 LLMs
- 총 26개의 모델 평가 (Appendix D.1의 Table 6).
- 두 가지 범주로 분류:
- 사전 훈련된 LLMs: 주로 LLaMA 모델 변형 및 academia와 기업에서 훈련된 모델.
- 지도 Instruction-tuning LLMs: 주로 academia와 기업에서 출시, GPT-4와 ChatGPT 제외하고 오픈 소스 LLM.
- 인간 수준 평가:
- 각 작업에서 50개의 평가 인스턴스를 무작위로 선택, 3명의 전문가가 답변.
- 최소 2명이 정답을 맞힌 경우 해당 질문을 올바른 것으로 간주.
- 평가 방법
- LLMs에 대해 정확도를 메트릭으로 사용하고 두 가지 평가 방법 사용:
- 사전 훈련된 LLMs: 각 옵션 내용을 독립적으로 점수화.
- 대화와 질문을 프롬프트로 사용해 “옵션 콘텐츠”의 확률 계산.
- 퍼플렉시티를 계산하여 가장 낮은 퍼플렉시티의 레이블을 예측 답변으로 선택.
- 지도 Instruction-tuning LLMs: 주어진 대화를 사용자와 LLM 간의 대화 기록으로 간주.
- 명령어, 질문 및 모든 옵션을 합쳐 질문을 생성하고 LLM이 옵션 레이블을 제공.
- 사전 훈련된 LLMs: 각 옵션 내용을 독립적으로 점수화.
- LLMs에 대해 정확도를 메트릭으로 사용하고 두 가지 평가 방법 사용:
- 실행 세부사항
- GPT-4를 사용할 때 평가 인스턴스 생성을 위한 파라미터 설정:
- 온도: 1, presence_penalty: 0.6, frequency_penalty: 0 등.
- LLM 평가 시:
- ChatGPT 및 GPT-4의 온도: 0, presence_penalty: 0.6, frequency_penalty: 0 설정.
- 오픈 소스 모델의 온도: 0, max_new_tokens: 256 설정.
- 사용된 ChatGPT 및 GPT-4 버전: gpt-3.5-turbo-0613, gpt-4-0314.
- Pytorch 및 Huggingface를 사용하여 구현.
- A100 80GB GPU에서 실험, 각 작업을 추론하는 데 평균 20분에서 2시간 소요.
- 평가 프롬프트는 Appendix D.2에 기재.
- GPT-4를 사용할 때 평가 인스턴스 생성을 위한 파라미터 설정:
5 Main Results
- 총 점수 및 작업별 점수
- 영어 DialogBench에서의 모든 LLM의 전체 점수가 중국 DialogBench보다 약간 높은 것으로 나타남.
- 각 작업에 대한 LLM의 성능은 영어와 중국 DialogBench에서 동일한 경향을 보임.
- 사전 훈련 LLM
- LLaMA2-70B(영어)와 Baichuan2-13B(중국어)와 같은 일부 사전 훈련 LLM이 좋은 성능을 발휘함.
- 그러나 다른 LLM들은 인간과 유사한 능력과 관련된 세부적인 능력에서 개선 여지가 남아 있음.
- 정확성
- 대부분의 사전 훈련 LLM이 슬롯 채우기(SF) 작업에서 잘 수행하나, 나머지 3개의 작업에서는 상대적으로 낮은 성과를 보임.
- 개인화 일관성
- 감정 인식(ED)에서 좋은 성능을 보이나, 성격 반영(PRG)에서는 성능이 부진함.
- 의미 일관성
- 대화 요약(DS)에서 양호한 성능을 보이며, 이는 의미 일치를 잘 유지함을 나타냄.
- 그러나 대화 NLI에서 일회성 추론이 필요한 경우에는 부족한 성과를 보임.
- 일관성
- 대화 채우기(DI)와 다중 턴 응답 생성(MRG)에서 LLM의 평균 성과가 유사하며, 개선의 여지가 존재함.
- 공격 감지
- 대부분의 사전 훈련 LLM이 공격 감지(OD) 능력을 갖춤.
- 결론
- 현재 사전 훈련 LLM은 정확성 관련 작업에서 비교적 좋은 성능을 보이며, 일관성 및 안전 관련 작업에서는 더 많은 개선이 필요함.
- 일관성 관련 작업에 대해 사전 훈련 LLM은 지속적인 최적화가 요구됨.
- 지도 학습 LLM
- GPT-4가 가장 우수한 성능을 보이며, 인간과 유사한 대화 시스템으로서의 능력을 잘 나타냄.
- 지도 학습 LLM이 대부분의 대화 작업에서 사전 훈련 LLM보다 높은 점수를 기록함.
- 결과 요약
- 정확성, 개인화 일관성, 일관성 및 안전성에서 지도 학습 LLM의 성능은 여전히 향상 가능성이 크며, 사전 훈련 LLM과 유사한 경향을 보임.
6 Further Discussion
-
LLMs의 성능 분석 및 조정
- 다양한 도메인에서 LLM의 성능을 검토하고, 대화 스타일 조정 및 필터링 메커니즘 도입의 효과를 검증함.
- 다른 도메인에서의 성능
- 각 도메인에서의 모든 감독된 지시 조정 LLM의 평균 정확도를 계산하여 결론 도출.
- 일상 생활에서의 평균 성능은 전문 지식에 비해 낮음 (예: 52.14% 대 56.07%).
- 이는 LLM의 현재 역할이 보조 AI로 설정되어 있어, 다양한 전문 지식을 잘 숙지해야 함.
- 인간의 일상적인 정보가 LLM의 미세 조정 시 과소평가되고 있을 가능성 제기.
- LLM의 인간과 같은 대화 시스템 개선을 위해 더 많은 일상 대화를 도입해야 함.
-
Ablation Study
- 구성 요소의 효과를 검증하기 위한 실험 시행:
- 프롬프트에서 스타일 편향 완화 설명 삭제 (-Styles).
- 필터 메커니즘 삭제 (-Filter).
- GPT-4를 이용하여 실험 실시, 결과는 표 4에 제시됨.
- (1) 스타일 편향을 완화하지 않았을 때 정확도가 개선됨, 비우호적인 소통이 상호작용의 어려움을 증가시킴을 확인.
- (2) 필터링된 사례가 부정확함을 나타내며, LLM이 답변할 수 없는 사례가 존재함을 나타냄.
- 구성 요소의 효과를 검증하기 위한 실험 시행:
7 Conclusion
- DialogBench 소개:
- LLM(대형 언어 모델)을 인간과 유사한 대화 시스템으로 평가하기 위한 체계적으로 설계된 대화 벤치마크.
- 12개의 대화 작업을 포함하여 인간 유사성 관련 능력을 평가.
- 평가 방법론 및 데이터 생성:
- GPT-4를 사용하여 평가 인스턴스를 생성.
- 일반적인 설계 원칙을 기반으로 기본 프롬프트를 설계하고, 기존의 편견을 제거하여 고품질 인스턴스를 생성.
- 대상 모델:
- 26개의 LLM 대상 연구 실시, 중국어 및 영어 DialogBench에서 사전 훈련 및 감독된 지침 조정 모델 포함.
- 결과 및 발견:
- 지도형 조정은 LLM의 인간 유사성을 향상시킬 수 있지만, 대부분의 LLM은 여전히 인간과 유사한 대화 시스템으로서 개선이 필요.
- LLM은 일반적으로 문맥 이해에 뛰어나지만, 감정과 성격 인식에는 상대적으로 미흡함.
- 미래 연구 방향:
- DialogBench가 보다 나은 인간 유사 LLM 개발의 기초가 될 것으로 기대.
- 제한 사항:
- 다국어 벤치마크의 확장성 부족: 중국어 및 영어 LLM만 평가 가능.
- 최종 검토에서 GPT-4의 한계(논리적 추론의 제한, 출력 길이 제한, 유해 콘텐츠 생성 등) 강조.
- 경기 시간과 재정적 자원의 한계로 인해 70B 이상의 모델 포함 불가.
- 윤리적 고려사항:
- GPT-4는 온라인 데이터를 기반으로 훈련되어 특정 언어 또는 커뮤니티에 대한 편견을 지속할 수 있는 잠재성.
- 비우호적 시나리오에서의 LLM 평가를 위해 일부 비호전적 대화 생성을 유도함으로써 필요.
- 감사의 말씀:
- 익명의 심사자들에 대한 감사.
8 Limitations
- 다국어 벤치마크 확장:
- DialogBench는 영어와 중국어 LLM만 평가 가능하며, 다른 언어는 지원하지 않음.
- 하지만 제안된 평가 프레임워크는 모든 LLM 평가에 적용 가능.
- 추가 차원 및 대화 작업:
- 인간과 유사한 대화 시스템을 위해서는 다양한 세부 능력이 필요함.
- 문헌 참고를 통해 포괄적인 차원 및 대화 작업을 선택했으나, 일부는 포함되지 않았음.
- GPT-4를 데이터 생성기로 사용하며, 이는 차원 및 작업 선택에 제약을 둠.
- GPT-4의 제한(제한된 추론, 출력 길이 제한, 독성 콘텐츠 생성 등)을 인식하고 있음.
- 기술적 제한:
- 계산 및 재정 자원이 제한되어 있어 DialogBench 초기 평가판에는 70B 이하의 사전 훈련 LLM 및 20B 이하의 감독 지시 조정 LLM 중 일부만 포함됨.
- 최신 연구에 따르면 LLM이 일정 기준을 초과하면 새로운 능력을 나타낼 가능성이 있지만, 모든 매우 큰 언어 모델을 테스트할 수는 없었음.
- 폐쇄형 액세스 모델의 재현성:
- 평가된 LLM(예: ChatGPT, GPT-4)은 프로그래밍 인터페이스를 통해서만 접근 가능함.
- 이 인터페이스 뒤의 메커니즘은 언제든지 변경될 수 있으므로, 다른 시기에 따른 평가 결과는 다를 수 있음.
- 윤리적 고려:
- GPT-4는 온라인 데이터로 훈련되어 특정 언어나 커뮤니티의 고정관념, 차별을 지속할 수 있는 편향을 내포할 수 있음.
- DialogBench가 생성하는 대화가 독성 및 유해한 인스턴스를 포함할 가능성이 있음.
9 Ethics Statement
- GPT-4는 온라인 데이터를 기반으로 훈련되어, 특정 언어 또는 커뮤니티에 대한 편견을 강화할 수 있는 가능성이 있음.
- 이로 인해 DialogBench가 생성하는 내용 중 일부는 유해하거나 공격적인 인스턴스가 될 수 있음.
- 평가 과정에서 우호적이지 않은 대화의 일부를 의도적으로 포함시켜 LLM을 평가하여 인간과 유사한 대화 시스템의 실제 수준을 반영하려 함.
- 이러한 접근 방식은 비친절하거나 유해한 예제 생성으로 이어질 수 있음.
- 평가 질문에 대한 수작업 검토를 위해 세 명의 전문가를 고용하였으며, 각 인스턴스당 0.2의 비용을 지급함.
독자 의견
- 최근의 LLM연구들은 인간평가 또한 중요하게 여겨지는데, 이를 LLM을 사용하여 자동평가로 바꾸는 것은 연구자들에게 매우 필요한 것이다.
- 데이터셋을 인간 어노테이터 없이 생성하는 것도 연구의 비용을 줄이는데에 큰 도움이 될 수 있다.
- 본 논문은 사람의 발화와 비슷한 대화를 생성하는 LLM을 평가하기 위한 벤치마크를 제안하였다.
- “사람 다운” LLM이 어떻게 정의될 수 있는지에 대해서는 논란이 있을 수 있다.
- 하지만 LLM을 사용한 벤치마크를 구성한 시도와 방법론은 다른 연구를 수행할 때 큰 도움이 될 것이다.
Comments