Recent Posts

[논문리뷰] Dialogue Systems for Emotional Support via Value Reinforcement (ACL 2025)

14 minute read

본 연구는 정서지원 대화 시스템에 가치 강화(value reinforcement)를 도입한 가치 주도 학습 방법을 제안한다. Reddit 데이터를 활용해 각 대화 턴에서 강화할 가치를 식별하고, 가치 강화를 통한 성능이 지원 기술, 감정 강도, 가치 강화 측면에서 우수함을 실험으로...

[논문리뷰] Self-Adapting Language Models (arXiv 2025)

13 minute read

본 논문은 LLM이 스스로 미세조정 데이터를 생성하고 가중치를 지속적으로 업데이트하여 새로운 과제나 지식에 적응할 수 있도록 하는 Self-Adapting LLMs(SEAL) 프레임워크를 제안한다.

[논문리뷰] Code Models are Zero-shot Precondition Reasoners (NAACL 2024)

14 minute read

이 연구는 코드 표현을 활용해 행동의 선행 조건을 추론하고, 이를 바탕으로 정책의 행동 샘플링을 선행 조건에 맞게 조정하여 작업 지향 대화 및 텍스트월드 환경에서 적은 학습으로도 성능을 향상시키는 방법을 제안한다.