Recent Posts

[논문리뷰] Code Models are Zero-shot Precondition Reasoners (NAACL 2024)

14 minute read

이 연구는 코드 표현을 활용해 행동의 선행 조건을 추론하고, 이를 바탕으로 정책의 행동 샘플링을 선행 조건에 맞게 조정하여 작업 지향 대화 및 텍스트월드 환경에서 적은 학습으로도 성능을 향상시키는 방법을 제안한다.