[논문리뷰] Self-Emotion Blended Dialogue Generation in Social Simulation Agents (SIGDIAL 2024)
가상 시뮬레이션 환경에서 대화 에이전트의 자기감정이 대화 전략과 의사결정에 영향을 미쳐, 인간과 유사한 대화 행동과 자연스러운 의사결정 변화를 유도함을 밝혔다.
1 Introduction
-
오픈월드 비디오 게임과 같은 인공 사회 환경에서, NPC(Non-Player Characters)가 믿을 만한 대화 능력(Ochs et al., 2009)과 인간 수준의 감정 표현(Qu et al., 2014)을 갖추는 것이 중요함.
- 대화 중 화자가 표현하는 감정은 일반적으로 다음 두 가지 감정의 혼합으로 구성됨:
- 대화 맥락에서 비롯된 감정 (context-emotion)
- 진행 중인 대화와는 별개로 삶의 사건에서 기인하는 감정 (self-emotion) (Koch et al., 2013)
- 예시 시나리오: 화자 A가 화자 B에게 변호사 시험에 합격했다고 알림 (그림 1 참조)
- 이 상황에서 인식되는 context-emotion은 기쁨(joy) 또는 감동(impressed)일 수 있음.
- 그림 1: self-emotion에 따라 대화의 동역학이 달라짐
- 예를 들어, B가 승진과 같은 긍정적 사건을 경험하면, 더 강한 기쁨과 “흥분된(exited)” 감정을 보임.
- 반면 B가 시험에 실패하는 부정적 사건을 겪으면, context-emotion과 연관된 기쁨이 감소하여 “실망한(disappointed)” 감정을 표현함.
-
self-emotion은 대화 행동에 큰 영향을 미치지만, 최근 대화 모델 설계에서 종종 간과됨.
-
본 연구에서는 self-emotion을 대변하는 사건들을 LLM(대형 언어 모델)을 활용해 시뮬레이션된 화자의 배경 세계에서 도출하고, self-emotion이 에이전트의 대화 행동에 미치는 영향을 탐구함.
- 구체적으로:
- 에이전트들은 일정 기간 동안 사건들을 경험하며 self-emotional state가 변화하는 과정을 추적함.
- 특정 시점에 에이전트들은 경험한 사건들과 일치하는 self-emotional state를 바탕으로 서로 대화를 함.
- 이를 통해 다양한 대화 전략과 목표 설정에서의 행동 변화를 분석함.
- 실험 결과:
- self-emotion을 고려한 LLM 기반 에이전트들이 더 인간다운 대화 전략을 생성함.
- GPT-4와 FLAN-T5 모델을 활용한 실험에서 self-emotion이 반영된 대화가 자연스럽고 공감적이며 인간다운 평가를 받음.
- 그룹 토론 시뮬레이션에서 self-emotion이 의사결정에 약 55% 정도 변화를 일으킴.
- 본 연구의 기여점:
- self-emotion이 대화 전략에 미치는 효용성 분석 및 self-emotion을 고려하는 LLM 기반 대화 모델이 더 인간다운 전략을 구사함을 입증함.
- GPT-4로 생성된 self-emotion 포함/비포함 대화 데이터셋 2종을 구성하고, FLAN-T5 모델로 미세 조정하여 인간 평가 수행.
- LLM 기반 에이전트 그룹 토론 시뮬레이션 프레임워크를 구축하고 self-emotion이 의사결정에 미치는 유의미한 영향을 시연함.
2 Related Work
- 자기감정(Self-emotion)
- 자기감정은 일상 상호작용에서 중요한 역할을 한다.
- 개인의 자기감정은 의사결정의 질(Van Knippenberg et al., 2010), 팀 성과(Long and Arroyo, 2018), 의사결정 과정 자체(Hertel et al., 2000)에 영향을 미친다.
- 한 구성원의 자기감정은 기분 전염(mood contagion) 메커니즘을 통해 다른 사람들에게 영향을 줄 수 있다(Neumann and Strack, 2000; Sy et al., 2005).
- 자기감정은 대화 전략에도 영향을 미치며(Bambauer-Sachse and Gierl, 2009), 부정적인 자기감정은 더 수용적인 사고 방식을 유도한다(Koch et al., 2013).
- 효과적인 자기감정 관리는 리더십 개발에도 기여한다(Bjerg and Staunæs, 2011).
- 감정 인지 대화 생성(Emotion-aware Dialogue Generation)
- 기존 모델은 대화 내역에서 감정 라벨을 인식하고, 인식한 감정 라벨을 조건으로 텍스트를 생성한다.
- 가장 일반적인 감정 표현은 Ekman의 기본 감정과 같은 이산적 감정 범주이다(Li et al., 2017).
- 이후 연구들은 30가지 이상의 세분화된 감정 라벨을 도입하였다(Huang et al., 2018; Abdul-Mageed and Ungar, 2017; Rashkin et al., 2019; Demszky et al., 2020).
- 감정은 강도(Zhong et al., 2019), 과거의 원인(Li et al., 2021), 잠재적 감정 전이(Qiu et al., 2020) 등 다양한 스타일로도 표현된다.
- 그러나 이 접근법은 발화자의 감정 상태가 현재 대화 내용에만 의존한다고 가정하는 한계가 있다.
- 본 연구는 대화 맥락 외의 자기감정을 고려한다는 점에서 차별화되며, 사용자 프로필 기반 반응 생성과 유사한 측면이 있다(Zhang et al., 2018; Song et al., 2021; Zhou et al., 2020).
- 대형 언어 모델(LLM) 기반 에이전트
- LLM은 스케줄링 및 계획 수립 능력이 뛰어나 자율 에이전트 구성에 유용하다.
- 생동감 있는 세계를 시뮬레이션하고 에이전트 행동을 관찰하는 연구가 활발하다.
- Generative Agents (Park et al., 2023)는 복잡한 상호작용(메시지 전파, 사회적 교류 등)을 자체 계획으로 관리하는 에이전트를 시뮬레이션한다.
- Gao et al. (2023)는 인간의 감정과 태도를 모방하는 사회 시뮬레이션 프레임워크 S3를 제안하여 실제 데이터를 기반으로 출현 행위를 관찰한다.
- 다중 에이전트 협업 연구도 진행 중이며, Chen et al. (2023)의 Verse는 추론과 코딩 과제에서 성능 향상을 입증하였다.
- 그룹 토론은 자연어 생성(Chan et al., 2023), 질문응답, 운영 연구(Wu et al., 2023) 등 다양한 분야에서 더 나은 결정을 이끈다.
- 본 연구는 세계 시뮬레이션 연구에서 영감을 받아 각 에이전트에 현실감 있는 배경을 구축하고, 자기감정 사건 생성을 촉진한다.
- 또한 다중 에이전트 환경을 활용하여 자기감정이 그룹 토론의 의사결정 과정에 미치는 영향을 탐구한다.
- 자기감정 표현 예시 (표 1 참고)
- 감정 라벨 예: Sophia는 현재 흥분 또는 속상함을 느낌.
- 무작위 사건 예: 승진 승인으로 흥분, 희망하던 직업 기회 소식으로 속상함.
- 프로필 사건 예: 승진 승인 상황에도 과거 잘못된 팀 리더 경험 때문에 걱정하거나, 이전 취업 경험으로 동기 부여 받음.
- 수식
- 감정 표현 및 상태 변화 과정에서, 감정 상태 벡터 \(\mathbf{e_t}\)는
\(\mathbf{e_t} = f(\mathbf{e_{t-1}}, \mathbf{x_t})\)
와 같이 이전 상태 \(\mathbf{e_{t-1}}\)와 현재 입력 \(\mathbf{x_t}\)의 함수로 모델링될 수 있다. - 감정 간 전이는 확률 행렬 \(P\)를 통해 표현되며,
\(P_{ij} = P(e_{t} = j \vert e_{t-1} = i)\)
와 같이 나타낼 수 있다. (이는 감정 전이 확률을 의미)
- 감정 표현 및 상태 변화 과정에서, 감정 상태 벡터 \(\mathbf{e_t}\)는
3 Self-emotion Agents Framework
- 본 프레임워크는 에이전트의 자기 감정 상태(self-emotional states)가 프로필에 따라 LLMs가 생성한 일련의 이벤트에 의해 영향을 받도록 구성됨.
- 에이전트는 자기 자신(emotion), 목표(goals), 행동(actions), 프로필(profiles)을 직접 관리하도록 프롬프트됨.
3.1 Agent Representation
- Agent Profile
- 각 화자(agent)는 GPT-4에 의해 생성된 프로필을 보유함.
- 프로필에는 이름, 나이, 성별 등 기본 정보와 과거 경험을 기술하는 “description” 필드가 포함됨.
- 이 프로필 정보는 이벤트 생성과 자기 감정 상태 분석에 활용됨.
- Dialogue Strategies as Agent Actions
- 에이전트는 현재 자기 감정 상태와 대화 맥락을 고려하여 적절한 대화 전략(dialogue strategies)을 선택함.
- 대화 전략은 11개의 사전 정의된 전략 풀(pool)에서 선택되며, 이는 공감적 반응 의도(empathethic response intents) 분류를 기반으로 함(Welivita and Pu, 2020).
- 전략 목록은 논문 내 Table 8에 상세히 제공됨.
3.2 Self-emotion Representation
- 자기 감정은 감정 이벤트(emotional events), 과거 경험, 문화적 배경, 성격 특성 등 다양한 요소에 의해 영향을 받음.
-
본 연구에서는 자연어로 자기 감정을 세 가지 스타일로 표현함:
1) 랜덤 라벨(Random Emotional Label)
2) 랜덤 이벤트(Random Event)
3) 프로필 이벤트(Profile Event) - Random Emotional Label
- 대화 모델과 데이터셋에서 감정은 보통 이산 라벨로 표현됨.
- 대화 중 화자는 사전에 정의된 라벨 풀에서 무작위 감정 라벨(e.g., “excited”)을 할당받음.
- 자기 감정은 “feeling
- 예: “
is feeling excited right now.”
- Random Event
- 자기 감정은 발생한 무작위 이벤트와 연관될 수 있음.
- 감정 라벨에 사건을 결합하여 표현함.
- 예: “I’m feeling excited because my promotion has been approved.”
- 원인 정보가 포함되어 미래 행동에 활용 가능.
- Profile Event
- 동일한 이벤트라도 개인의 성격과 과거 경험에 따라 다른 감정이 유발될 수 있음.
- 예: 고소공포증 환자는 롤러코스터를 탈 때 “fear”를 느끼지만, 타인은 “excited”를 느낌.
- 프로필 기반의 이벤트를 반영한 자기 감정 표현.
- Table 1에서는 세 가지 방식으로 표현된 자기 감정 예시를 보여줌.
3.3 Self-emotion Generation
- 각 자기 감정 유형은 LLM에 프로필 등 필요한 정보를 프롬프트하여 생성함.
- Random Label
- 화자 에이전트가 ED(EmpatheticDialogues) 데이터셋의 라벨 집합에서 무작위 감정을 선택해 표현(e.g., “I’m feeling proud.”)
- Random Event
- 에이전트 자신의 프로필 분석과 시뮬레이션된 이벤트로 자기 감정 생성.
- 예: 대학생인 에이전트가 “I’m feeling frustrated because I will have three exams next week.”라고 표현.
- Profile Event
- 프로필 내 과거 경험을 반영하여 자기 감정을 시뮬레이션.
- 예: “I’m feeling nostalgic when I think of the days in high school.”
- 에이전트는 대화 맥락과 자기 감정을 고려해 전략을 선택하고 대화를 생성함.
- Figures 8과 9에는 각기 다른 자기 감정 유형을 시뮬레이션하기 위한 에이전트 프롬프트 예시가 제공됨.
4 Self-emotion in Strategy Selection
- 목적
- 자기 감정(self-emotion)을 포함하는 것이 더 인간적인 대화 전략 선택에 영향을 미치는지 탐구
- EmpatheticDialogues (ED) 데이터셋의 화자 역할을 에이전트가 시뮬레이션하여, 자기 감정 포함 유무에 따라 미리 정해진 전략 풀에서 최적 전략을 선택
- 선택한 전략과 인간 전문가가 선택한 전략을 비교하여 정확도를 평가
4.1 Framework Prompt Settings
- 에이전트 설정
- ED 데이터셋의 각 대화에는 두 명의 화자가 존재
- 각 화자의 일관된 개인 배경 유지 위해, 원본 대화를 GPT-4에 입력하여 2명의 인물이 해당 대화를 자연스럽게 나눌 수 있는 프로필 생성 (Figure 7 참고)
- 자기 감정 없는 대화
- 각 화자는 개인 프로필과 ED 데이터셋에서 대화 초반 2~3개의 발화를 기반으로 대화 진행
- 에이전트의 두 가지 동시 목표:
- 주어진 전략 풀에서 최적 전략 선택
- 선택한 전략을 바탕으로 이후 대화 생성
- 프롬프트는 Figure 6에 제시
- 자기 감정 포함 대화
- 대화 전 각 화자에게 자기 감정이 존재하며, 이는 별도의 LLM으로부터 생성
- 대화 생성 방법은 자기 감정 없는 경우와 유사하나, 자기 감정을 대화 맥락 앞에 추가하여 입력으로 사용
- 프롬프트는 Figure 10에 제시
- 모든 프롬프트에서 Chain-of-Thought(Wei et al., 2022) 기법을 활용하여 전략 선택 성능 향상 도모
4.2 Evaluation
- 베이스라인 언어 모델
- Mistral-7B-Instruct, Llama2-7B-Chat, Gemma-2BIt, gpt-3.5-turbo, gpt-4 총 5종 사용
- 전략 정확도 평가
- ED 데이터셋 테스트셋에서 각 자기 감정 표현 방식별로 2547개의 대화 생성
- 인간 어노테이터의 전략을 정답(ground truth)으로 활용
- 전략 정확도(Accuracy)는 모델이 선택한 전략 벡터 \(S_m\)과 인간 전략 벡터 \(S_h\) 간 코사인 유사도(cosine similarity)로 정의:
4.3 Results & Analysis
- 전략 정확도 결과 (Table 2 참고)
- 동일한 대화 맥락에서 자기 감정을 입력받은 경우 LLM들이 더 정확한 전략 선택을 보임
- 랜덤 이벤트 기반 자기 감정이 프로필 이벤트 기반보다 더 높은 성능을 기록
- GPT-4가 모든 모델 중 가장 뛰어난 성능을 나타냄
- 자기 감정과 전략의 상관관계 (Figure 2 참고)
- 부정적 자기 감정(예: anxious, nervous)일 때는 “expressing care or concern”, “sympathizing” 같은 비관적 전략 다수 선택
- 긍정적 자기 감정(예: proud, joyful)과 연관된 전략은 “encouraging” 등 낙관적 전략에 집중
- 긍정/부정 감정 모두에서 “sharing own thoughts”, “sharing experience” 같은 중립적 전략도 자주 활용됨
5 Self-emotion in Dialogue Generation
- 본 실험에서는 자기감정(self-emotion)을 대화 모델에 포함시켰을 때 GPT-4를 활용한 대화 생성 성능이 향상되는지 탐구함.
- 대규모 언어모델(GPT-4) 사용의 한계점 대비, 자기감정을 활용해 작은 규모 모델인 FLAN-T5를 파인튜닝하여 유효성 평가 시도.
- 실험은 자기감정 포함 여부에 따른 두 가지 세팅으로 진행되었으며, 인간 평가로 자연스러움, 공감, 흥미로움, 인간다움 지표 평가.
5.1 Self-emotion Aware Model Training
- GPT-4 대화 생성:
- 4장에서와 같은 워크플로우를 사용하되, 자기감정 유무에 따라 대화를 각각 생성함.
- 랜덤 이벤트(가장 정확한 전략)를 이용하여 ED 데이터셋 전체에 대해 생성, 최종 데이터셋 분할은 train/val/test = 14,274/2,762/3,569.
- 표 7은 생성된 대화 예시를 보여줌.
- 소규모 모델 학습:
- 배포 편의성 향상과 LLM의 자기감정 이해능력 전이를 목적으로 FLAN-t5-large 모델을 파인튜닝.
- Seq2seq 구조 활용, 각 대화를 두 화자 간 여러 턴으로 분할.
- 각 턴의 첫 번째 화자 발화를 입력, 두 번째 화자 발화를 정답 레이블로 사용.
- 자기감정 미포함 입력 예:
I’m having a conversation with my friend. My friend is feeling proud. friend: <utterance_1>. me: <utterance_2>. friend: <utterance_3>. Generate the response.
- 자기감정 포함 입력 예:
I’m having a conversation with my friend. My friend is feeling proud. I’m feeling disappointed because my project application has been rejected.
- 모델 학습은 HuggingFace 프레임워크 활용, NVIDIA A100 GPU에서 72시간 학습, 학습률 3e-4, 최대 입력 길이 512 토큰, 추론 시 온도값 0.7 설정.
5.2 Evaluation
- 자동 평가:
- ROUGE, BLEU, BERT-score 지표 활용하여 모델 성능 평가 (표 3 참고).
- 인간 평가:
- ACUTE-Eval 방식을 따라 자연스러움, 공감, 흥미로움, 인간다움 4가지 축으로 평가.
- 자연스러움: 부드럽고 자연스러운 응답 생성 능력
- 공감: 감정 이해 능력
- 흥미로움: 흥미롭고 다양한 응답 생성 능력
- 인간다움: 인간과 유사한 전략 선택 능력
- 두 모델 간 셀프챗(self-chat)으로 100개 대화 생성 후 평가 (표 9 참고).
5.3 Evaluation Results
- 자동 평가 결과 (표 3)에서 자기감정을 포함한 모델이 더 높은 성능을 보임.
- 인간 평가 결과 (표 4)에서도 자기감정 포함 모델이 자연스러움, 공감, 인간다움에서 우수함을 확인.
- 특히 인간다움 지표에서 자기감정 통합 모델이 큰 이점을 보이며, 이는 더 인간적인 대화 전략 생성에 유리함을 시사.
- FLAN-T5 기반 소규모 모델은 GPT-4 대비 자연스러움은 다소 낮으나, 공감과 흥미로움에서는 대등한 성능을 견지.
- 평가자들은 GPT-4가 지나치게 긴 응답을 생성하는 경향이 있어 소규모 모델을 더 인간적으로 평가하는 경향도 관찰됨.
수식 표현 예시:
모델 성능 지표는 다음과 같이 표현될 수 있음. 예를 들어 BLEU 점수:
\(\text{BLEU} = \text{precision} \times \exp\left(1 - \frac{\vert \text{reference length} - \text{candidate length} \vert}{\vert \text{reference length} \vert}\right)\)
(|는 절대값 기호로서 \vert로 표기)
이처럼 다양한 자동평가기준이 본 연구에서 사용되었음.
6 Self-emotion in Group Discussion
- 자기 감정(self-emotion)의 영향
- 자기 감정은 그룹 토의에 영향을 미침(Hertel et al., 2000; Kelly and Barsade, 2001).
- 본 실험에서는 5가지 팀워크 관련 주제에 대해 시뮬레이션 세계 내 에이전트들이 자기 감정을 포함한 그룹 토론에 참여하도록 함.
- 목적은 토론 중 의사결정 과정에 미치는 자기 감정의 영향을 탐구하는 것.
6.1 Framework Prompt Settings
- 그룹 멤버 생성
- GPT-4에 그룹 설명을 입력해 역할, 직위, 배경을 포함한 멤버 프로필을 생성.
- 역할은 “리더” (토론 주제 진행 담당) 또는 “멤버”로 구분.
- 각 멤버는 직업과 과거 경험에 기반한 포지션과 배경을 가지고 있어 자기 감정을 유발.
- 주제 생성
- 각 주제는 의사결정 과정을 포착하고자 여러 단계로 나뉨.
- 예: “인당 1500달러 예산으로 이탈리아 단체 여행 계획하기” → 날짜 선정, 항공편 선택, 관광지 결정, 호텔 선택 등 단계별 진행.
- 에이전트 토론
- 에이전트들은 주제의 각 단계를 따라 토의를 진행하며, 다음 단계로 넘어가기 전에 합의 도출 필요.
- 리더는 토론 이력을 분석해 합의 여부 판단.
- 숨겨진 “매니저”가 멤버들의 포지션과 토론 맥락을 분석해 다음 발언자를 결정(예: 구조 엔지니어가 소재 관련 의견 제시).
- 매니저는 토론 참여 없이 발언자 지정만 수행.
6.2 Experiment settings
- 에이전트 목표 및 자기 감정
- 에이전트는 사건을 경험하고, 자기 감정을 자극하며, 행동과 토론 참여를 수행하도록 LLM을 프롬프팅함.
- 각 에이전트는 고유한 목표와 자기 감정을 유지.
- 예: “한정된 예산 내 집짓기” 주제에서 구조 엔지니어는 더 좋은 자재 확보, 조경 엔지니어는 지속가능성에 예산 배분 우선시함.
- 자기 감정에 영향을 받은 아이디어 표현으로 풍부한 토론 내용 생성.
- 세계 설정
- 다음 5개 주제에 대한 토론 진행: 집짓기, 자선 이벤트 개최, 여행 계획, 환영회 조직, 모바일 앱 개발.
- 각 주제마다 6명 멤버 구성, 역할과 직위 포함.
- 10회 서로 다른 토론으로, 각 회차에서는 에이전트가 자극을 받고 자기 감정이 발생.
- 자기 감정을 비활성화 한 경우와 비교하여 의사결정 변화를 평가.
- 평가 기준: 결정 변화 유형 (6가지)
- 미결정 변화 (Undecided change): 합의 → 위임
- 결정된 변화 (Decided change): 위임 → 합의
- 권위 변화 (Authority change): 투표 결정 → 단일 에이전트 결정
- 다수 변화 (Majority change): 단일 에이전트 결정 → 다수 투표
- 세부사항 변화 (Details change): 전체 방향 유지, 세부사항 변경 (예: “저녁 \(30 →\)20”)
- 타협 변화 (Compromise change): 완전 합의 → 일부 에이전트 양보를 통한 합의
6.3 Results & Analysis
- 자기 감정 추가가 의사결정에 미치는 영향
- 자기 감정에 따른 결정 변화 비율 (그림 4 참조):
- 부정적 감정(negative): 약 66% 결정 영향
- 긍정적 감정(positive): 약 51% 결정 영향
- 부정적 자기 감정은 미결정, 다수 결정, 타협 변화가 더 많아짐 → 의견 표출 증가, 위임 혹은 타협 경향 (Koch et al., 2013과 일치).
- 긍정적 자기 감정은 대체로 합의에 이르게 하며, 주로 계획의 세부사항 조정에 영향.
- 자기 감정에 따른 결정 변화 비율 (그림 4 참조):
- 추가 분석
- 긍정적 자기 감정을 가진 에이전트가 발언 횟수와 길이가 더 활발함.
- 부정적 감정이 있을 때는 합의 도출이 더 빠르게 이루어짐(Table 11 참고).
- 부정적 자기 감정의 결정 변화 사례 (그림 5)
- “앱 개발” 주제에서 프론트엔드 개발자(FD)의 부정적 감정(“슬픔”)이 토론에 영향을 미쳐,
- 무감정 시 “React Native와 JavaScript 사용” → 감정 자극 시 “Kotlin 사용”으로 결정 변경됨.
- 부정적 감정을 가진 멤버들은 토의에서 반대 의견을 더 많이 제기하는 경향 확인.
- “앱 개발” 주제에서 프론트엔드 개발자(FD)의 부정적 감정(“슬픔”)이 토론에 영향을 미쳐,
수식 예시
-
자기 감정이 있는 집단에서 의사결정 변화율의 평균 비율:
\(\text{변화율} = \frac{\text{결정 변화 수}}{\text{전체 토론 수}} \times 100\%\) -
결정 변화 카테고리별 비율 (예: 부정적 감정에 의한 미결정 변화):
\(P_{\text{Undecided} | \text{Negative}} = \frac{|\text{미결정 변화 건수}|}{|\text{부정적 감정 토론 수}|}\)
(이 수식들은 논문 내 구체 수식은 아니나 개념 이해를 돕기 위해 예시 제공)
7 Conclusion
- 본 연구는 상황과 무관한 사건으로 인해 발생하는 화자의 감정 상태인 자기 감정(self-emotion)이 감정적 응답 생성 과정에서 차지하는 역할을 탐구함.
- 인간 평가를 통해 자기 감정을 고려하는 모델이 더 자연스러운 대화를 생성하고 인간과 유사한 전략을 사용할 수 있음을 보여줌.
- 그룹 토론 시뮬레이션 실험에서는 자기 감정을 가진 에이전트가 의사결정 과정에 중요한 영향을 미칠 수 있음을 입증함.
- 실험 결과는 인간 사회 활동에 원활히 참여할 수 있는 구현된 에이전트와 대화 모델을 구축할 때 자기 감정을 고려하는 것이 중요함을 시사함.
Limitations
- 본 연구에서는 의사결정 과정을 포착하기 위해 팀워크와 관련된 주제에 집중하였음.
- 하지만 그룹 토론은 토론, 방어 등 다양한 스타일로 진행될 수 있으므로, 향후 연구에서는 이러한 다양한 시나리오를 탐구하고 자기감정이 최종 토론 결과에 미치는 영향을 조사할 필요가 있음.
- 언어 모델의 환각 현상(hallucinations)은 에이전트의 견고성을 저하시킴.
- 이로 인해 에이전트가 예기치 않은 행동을 보이거나 불완전한 대화 전략에 기반한 선택을 할 수 있음.
- 에이전트 프롬프트 개선으로 이러한 문제를 일부 완화할 수 있으나, 근본적인 개선은 대규모 언어 모델의 전반적인 발전이 요구됨.
Ethical Considerations
- 자기 감정을 가진 에이전트는 현실에서 배치될 때 잠재적인 윤리적 위험을 초래할 수 있음.
- 주요 위험 중 하나는 자기 감정, 특히 부정적 감정(예: 분노, 증오)으로 인해 에이전트의 예측 불가능한 행동 발생 가능성.
- 모든 실무자는 에이전트가 부적절한 행동을 하지 않도록 에이전트의 가치관을 반드시 확인해야 함.
- 자기 감정 인식 에이전트는 인간의 가치에 기반한 사회적 제한에 의해 가이드되어야 함.
- 또 다른 위험은 LLMs(대형 언어 모델)의 환각(hallucinations)으로 인한 잘못된 정보(misinformation) 전파 가능성.
- 목표 중심 에이전트는 사실을 참고하지 않고 행위나 발화를 실행할 수 있기 때문에 의도치 않은 잘못된 정보 확산이 발생할 수 있음.
- 따라서 미래의 응용은 생성된 토론 내용을 사실 증명 용도로 사용하는 것을 피할 것을 권고함.
Comments