[논문리뷰] Embodied Agent Interface- Benchmarking LLMs for Embodied Decision Making (NeurIPS 2024)
본 논문은 다양한 과제와 평가 지표를 통합한 EMBODIED AGENT INTERFACE를 제안하여, 대형 언어 모델(LLM)의 신체화된 의사결정 능력을 세부적으로 평가하고 장단점을 분석한다.
본 논문은 다양한 과제와 평가 지표를 통합한 EMBODIED AGENT INTERFACE를 제안하여, 대형 언어 모델(LLM)의 신체화된 의사결정 능력을 세부적으로 평가하고 장단점을 분석한다.
본 논문에서는 실제 상황에서 요구되는 복합적 멀티모달 추론 및 행동 평가를 위해 살인 미스터리 게임 기반의 동적 환경 평가 벤치마크인 WhodunitBench를 제안하였으며, 이를 통해 현재 대형 멀티모달 에이전트들의 한계를 분석하였다.
현존하는 대형 언어 모델들은 별도의 학습 없이 기본 성능만으로는 강화학습의 핵심인 탐험 능력을 잘 수행하지 못하며, 효과적인 탐험을 위해서는 외부 요약 등 비단순한 알고리즘적 개입이 필요함을 보였다.
본 논문은 동적 환경에서 불확실성을 고려한 의사결정 문제를 다루며, 동적 결정 네트워크(DDN)에 대해 벨만 업데이트를 지식 컴파일하여 미분 가능한 동적 결정 회로를 생성하고 이를 통해 기울기 기반 학습을 수행하는 새로운 알고리즘 mapl-cirup을 제안한다.
본 논문은 언어 기반 인지 스타일 모델을 인간 행동 실험과 비교 평가하는 체계적 실험 프레임워크를 제안하며, 언어 특징을 통해 개인의 의사결정 스타일을 상당히 정확히 예측할 수 있음을 보여준다.