[논문리뷰] Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs (CVPR 2024)
요약: 본 연구는 최근 다중 모달 모델의 시각적 능력에서 발생하는 문제점을 분석하고, CLIP의 시각 임베딩 공간과 자가 감독 학습 간의 차이를 조사하며, MLLMs의 시각적 이해 향상을 위해 혼합 피처(MoF) 접근 방식을 제안합니다.
요약: 본 연구는 최근 다중 모달 모델의 시각적 능력에서 발생하는 문제점을 분석하고, CLIP의 시각 임베딩 공간과 자가 감독 학습 간의 차이를 조사하며, MLLMs의 시각적 이해 향상을 위해 혼합 피처(MoF) 접근 방식을 제안합니다.
요약: 감정 지원 대화(ESC) 과제에서는 일상적인 대화를 통해 개인의 감정적 고통을 완화하는 것을 목표로 하며, 최근 대형 언어 모델(LLMs)이 효과적인 감정 지원을 제공하는 데 어려움을 겪고 있음을 분석하고, 특정 전략에 대한 선호가 효과적인 지원을 저해함을 밝혀냈다. 이 연...
요약: 이 논문은 감정 지원 대화 시스템의 해석 가능성을 강화하기 위해 Emotion-Focused and Strategy-Driven Chain-of-Thought(ESCoT)라는 새로운 응답 생성 방안을 제안하고, 이를 통해 감정 식별 및 조절 과정을 모방하여 대화 데이터셋을 ...
요약: 이 논문은 음성 인식을 통합하여 인간 의사소통의 뉘앙스를 이해하는 다중 모달 대화 시스템 ‘PerceptiveAgent’를 제안하며, 이를 통해 화자의 진정한 의도를 더 잘 파악하고 공감적인 반응을 생성하는 방법을 다룹니다.
요약: 본 논문에서는 대화 시스템의 인간 같은 특성을 평가하기 위한 12개의 대화 과제가 포함된 DialogBench라는 벤치마크를 제안하며, instruction tuning이 대형 언어 모델의 인간 유사성을 어느 정도 향상시키지만 여전히 개선 여지가 많음을 보여준다.