[논문리뷰] Can large language models explore in-context? (NeurIPS 2024)
현존하는 대형 언어 모델들은 별도의 학습 없이 기본 성능만으로는 강화학습의 핵심인 탐험 능력을 잘 수행하지 못하며, 효과적인 탐험을 위해서는 외부 요약 등 비단순한 알고리즘적 개입이 필요함을 보였다.
현존하는 대형 언어 모델들은 별도의 학습 없이 기본 성능만으로는 강화학습의 핵심인 탐험 능력을 잘 수행하지 못하며, 효과적인 탐험을 위해서는 외부 요약 등 비단순한 알고리즘적 개입이 필요함을 보였다.
본 논문은 동적 환경에서 불확실성을 고려한 의사결정 문제를 다루며, 동적 결정 네트워크(DDN)에 대해 벨만 업데이트를 지식 컴파일하여 미분 가능한 동적 결정 회로를 생성하고 이를 통해 기울기 기반 학습을 수행하는 새로운 알고리즘 mapl-cirup을 제안한다.
본 논문은 언어 기반 인지 스타일 모델을 인간 행동 실험과 비교 평가하는 체계적 실험 프레임워크를 제안하며, 언어 특징을 통해 개인의 의사결정 스타일을 상당히 정확히 예측할 수 있음을 보여준다.
본 논문은 정서적 지원 대화 시스템의 투명성과 성능 향상을 위해 전략 예측과 언어 생성을 분리하고, 사용자 감정과 시스템 전략 간 상호작용을 그래프로 모델링하는 EmoDynamiX 프레임워크를 제안한다.
LLM 기반 에이전트가 반복 게임 및 온라인 학습 상황에서 후회(regret) 를 줄이는 방향으로 학습 또는 추론할 수 있는지를 실증적으로 검증하고, 실패하는 경우를 탐색하며, 이를 개선할 수 있는 새로운 훈련 기법(regret-loss)을 제안함.