Recent Posts

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

21 minute read

이 논문은 대형 언어 모델의 정렬 파인튜닝이 실제로 견고한 효과를 가지는지 이론적·실험적으로 처음으로 조사한다. 실험을 통해 정렬된 후에도 모델이 사전학습 분포로 되돌아가려는 ‘엘라스티시티’를 확인하고, 압축 이론으로 파인튜닝이 정렬 효과를 더 크게 약화시킬 수 있음을 보이며, 모...

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

7 minute read

이 논문은 타인의 비관측적 인지 제약을 모델링해 복잡한 사회적 상호작용의 행동 예측을 단순화할 수 있으며, 이를 마음 이론과 게임 이론의 연결으로 설명한다. 또한 내성(내적 성찰)과 마음 이론의 관계를 밝히고 생물학적·인공지능 에이전트의 대인관계 모델링에서 게임 이론의 역할을 논의...