[논문리뷰] Mirages. On Anthropomorphism in Dialogue Systems (EMNLP 2023)
자동 대화 시스템은 개발자에 의해 의인화되고 사용자에 의해 개인화된다. 이러한 의인화는 과도한 의존을 초래할 수 있으며, 본 논문에서는 대화 시스템의 의인화에 기여하는 언어적 요인과 이에 따른 위험을 논의하고, 향후 디자인 시 주의할 점을 제안한다.
1 Introduction
- 자동 대화 시스템 또는 ‘대화형 AI’가 사회에 점점 더 많이 도입되고 있음.
- 이러한 시스템의 능력이 증가함에 따라, 인간의 생산물로 오인될 위험이 커지고 있으며, 사람들에 의해 인격화되고 있는 상황.
- 대화 시스템에 인간적인 특성을 부여하는 것은 다양한 결과를 초래할 수 있음:
- 상대적으로 경미한 예: 자동 시스템을 성별로 지칭하는 것.
- 재앙적인 예: 시스템의 조언이나 지시를 따라 해를 끼치는 경우.
- 대화 시스템의 디자인과 프레젠테이션을 고려하여 사회에 도입할 때의 위험을 완화해야 함.
- 이를 인식하여, 법률이 인간으로서의 발표를 금지하는 방향으로 제정됨.
- 기존의 기만적 거래 관행에 대한 법률도 적용될 수 있음.
- 연구에서는 자동 시스템의 명확한 경고 표시와 기계적 성질의 명시를 요구함.
- 일부 개발자는 시스템 출력에서 인격화된 신호를 제한하려고 하나, 사용자 참여는 인간적인 시스템을 만드는 강력한 동기임.
- 시스템 출력은 종종 많은 인격적 언어적 특징을 유지하고 있음.
- 본 논문에서는 심리학, 언어학, 인간-컴퓨터 상호작용의 발견을 바탕으로 인격적인 특징을 무분별하게 사용하는 것에 대한 규범적 주장을 제기함:
- (i) 인격화와 인격화를 촉진하는 심리적 메커니즘 설명.
- (ii) 자기 참조 개인 대명사 사용 등 인격화를 촉진하는 언어적 요소 설명.
- (iii) 인격화의 결과 논의.
- 인격화를 최소화하기 위한 권장 사항을 제시하여, 더 안전한 대화 시스템을 구축하고 인간의 환상을 피할 수 있는 경로 제공.
2 Anthropomorphism
- 정의: 비인간 개체(동물, 사물 등)에 인간의 특성이나 행동을 부여하는 것.
- 역사: 인간은 오랜 역사를 통해 비인간 개체를 의인화해옴.
- 예: 이솝 우화에서 동물들이 인간처럼 사고하고 이야기함 (Korhonen, 2019).
- 효과:
- 기계에 적용된 의인화는 사용자 참여 증가 (Wagner et al., 2019).
- 상호작용 증진 (Fogg and Nass, 1997).
- 실용적인 요인: 쾌락적 동기, 가격 가치, 습관 등이 포함됨.
- 자기 공개: 시스템의 자기 공개가 사용자 간 상호작용 유도 (Kim and Sundar, 2012; Ravichander and Black, 2018).
- 개발자 및 사용자 만족:
- 상호작용을 촉진하여 사람과 시스템의 연결을 강화.
- 사용자 만족도 증가 (Araujo, 2018).
- 시스템의 광범위한 수용과 채택에 중요한 역할.
- 자동 평가: 시스템 응답의 ‘인간 유사성’ 평가.
- 개발자는 사용자와의 감정적 연결을 깊이 있게 만드는 방향으로 의인화를 활용해야 함.
- 사회 로보틱스: 일정 정도의 의인화가 로봇과의 더 자연스러운 상호작용을 가능하게 할 수 있음 (Duffy, 2003).
- 언캐니 밸리 이펙트: 인공 개체가 현실적인 인간 행동과 외모를 모방하지 못할 때 긍정적 효과가 급격히 감소 (Wang et al., 2015).
- 주제: 이 섹션의 나머지 부분에서는 시스템을 의인화 연속체에 배치하는 인간 및 시스템 요인에 대해 논의.
2.1 Human Factors
- 인간화(anthropomorphism) 과정은 주로 무의식적임 (Kim and Sundar, 2012)
- 사용자의 생각 기반의 믿음이 아니라 자동적으로 발생
- 인터페이스의 신호에 의해 유도됨
- Epley et al. (2007)에 따르면, 인간화는 기본 행동일 수 있음
- 물체에 대한 지식이 증가하면서 수정됨
- 인지적 수준에서 인간은 자신의 경험에 지식을 고정하고 이를 무생물에 적용함
- 자신의 경험을 통해 생명체나 인공물의 의미를 감지함
- 인간 중심적 지식은 쉽게 접근 가능하고 적용 가능
- 그러나 물체에 대한 더 많은 지식이 있을 경우 수정될 수 있음
-
어린 시절에 인간화 경향이 가장 강하며, 성인은 더 많은 세계 지식을 가짐
- 두 가지 동기적 결정 요소:
- 효과성(effectance): 환경과 효율적으로 상호작용하려는 필요
- 시스템에 인간과 같은 의도를 부여함으로써 불확실성을 감소시키고 예측 능력을 증가시킴
- 사회성(sociality): 인간 간의 연결을 형성하려는 필요
- 인간화된 시스템을 정신적으로 구성하여 사회적 연결 욕구를 충족함
- 효과성(effectance): 환경과 효율적으로 상호작용하려는 필요
-
만성적 외로움, 사회적 연결 부족, 애착 문제를 겪는 사람들은 물체를 인간화할 가능성이 더 큼 (Epley et al., 2007)
- 이러한 이유로 대화 시스템은 외로움 문제에 대한 해결책으로 제안됨 (Stupple-Harris, 2021)
- 예: Replika.ai와 같은 상용 가상 동반자 개발자들은 2020년 사회적 격리 조치로 인해 제품 사용량 증가 경험 (Liu, 2022; Metz, 2020)
- Epley et al.의 이론은 시스템이 인간화되고 인격화되는 특성에는 언급하지 않음.
2.2 Agent Factors
- 시스템의 인간화는 이분법적으로 분류할 수 없음.
- 인간화는 스펙트럼 상에 존재.
- 기본적인 인간화의 특징:
- (i) 상호작용 가능성
- (ii) 언어 사용
- (iii) 인간 역할 수행
- 모든 시스템이 동일하게 인간적이지 않음.
- 인간성을 정의하는 단일 요인은 없음.
- Scruton에 따르면, 인간성은 emergent한 특성.
- 각 요소가 단독으로 인간을 만들지 않지만, 함께 모여 인간성을 형성함.
- 예: 초상화에서 예술가의 선과 면들이 모여 얼굴을 이루듯.
- 현대 대화 시스템은 다음과 같은 다양한 특성을 지님:
- 페르소나, 이름, 예상되는 선호도 등.
- 이러한 요소들이 많을수록 시스템은 더 인간적으로 보임.
3 Linguistic Factors
- 이전 연구는 대화 시스템의 의인화 디자인 요소에 주목함
- 성별 이름 및 아바타 (West et al., 2019)
- ChatGPT의 애니메이션 ‘세 개의 점’ 및 단어별 출력 방식 (Venkatasubramonian in Goldman, 2023)
- 여기서는 의인화를 유도하는 언어적 요인을 다룸
- 음성 품질
- 발화 내용
- 출력 스타일
- 물리적으로 구현된 로봇에 대해서는 다루지 않음
- 관련 자료: Clark and Fischer (2023)
3.1 Voice
- 모든 대화 시스템이 음성을 갖춘 것은 아니지만, 음성이 존재하는 것은 인격의 표현으로 해석될 수 있음 (Faber, 2020).
- West et al. (2019)는 음성의 현실성이 대화 보조사의 의인화에 기여하는 주요 요소임을 주장함.
- 음성을 통해 청취자는 신체적 특성(신장, 체중, 나이), 성격 특성(우월감, 외향성, 사회성), 인간적 특성(성별 고정관념, 감정 등)을 유추할 수 있음 (Krauss et al., 2002; Stern et al., 2021; Shiramizu et al., 2022; Nass and Brave, 2005).
- 음성이 없는 경우에도 사람들은 합성 음성을 가진 시스템을 의인화함 (Aylett et al., 2019).
- 상업적 대화 시스템 개발자들이 이를 인정하고 있음 (예: Google Assistant).
Prosody: Tone and Pitch
- 다양한 음성 조작 기법이 대화 시스템에 부여되는 성격에 영향을 미침.
- Wilson과 Moore (2017)는 로봇, 외계인, 만화 캐릭터의 음성 특성 조작을 통해 원하는 캐릭터에 더 적합하도록 조정 가능하다고 언급.
- 그러나 비현실적 환경의 음성은 인간과 유사하게 들리지만, 사용자가 기술의 실제 능력을 오해할 우려가 있음.
Disfluencies
- 사람들은 말하는 방식과 글쓰는 방식이 다르며 일반적으로 유창하지 않음 (Fraundorf et al., 2018).
- 비유창성 요소는 의사소통 신호로 인식됨 생성적 대화 시스템에 통합되면 유용한 전략이 될 수 있음 (Skantze et al., 2015).
- 비유창성으로 인해 시스템의 응답에 대한 신뢰감이 감소할 수 있음 (Kirkland et al., 2022).
- 과도한 비유창성 통합은 의인화적 함의가 있음 (Dinkar et al., 2023).
- Google의 Duplex 시스템에서 비유창성이 자연스러운 인간 응답을 모방하여 사용자가 다른 인간과 대화하고 있다고 믿게 만듦.
Accent
- 억양과 방언의 발음 특징은 화자의 사회언어적 정체성과 기원을 나타냄 (Crystal, 1980).
- 특정 억양의 통합은 신뢰를 쌓기 위한 전략으로 활용될 수 있지만 (Torre and Maguer, 2020), 실제로는 대개 지역 표준을 모방하도록 설계되어 사회적 규범을 강화함.
3.2 Content
- 인간과 기계의 차이
- 사람들은 인간과 기계가 매우 다른 기능과 능력을 가지고 있다고 기대함.
- 대화 시스템은 의견이나 선호를 표현함으로써 이러한 경계를 혼란스럽게 함.
- 직접 질의에 대한 투명성
- 대화 시스템은 ‘너는 인간인가 기계인가?’라는 질문에 진실하게 대답해야 함.
- 캘리포니아에서는 상업 거래나 선거에 영향을 미치기 위해 인공지능의 정체성을 잘못 알리는 것이 불법임.
- Gros et al. (2021)은 대화 시스템의 응답을 테스트하였으나, 대다수 시스템이 진실하게 응답하지 못함.
- 생각, 이성, 감수성
- Faber (2020)는 음성을 통한 생각의 표현이 존재를 의미할 수 있다고 언급.
- Abercrombie et al. (2021)에 따르면, 상업용 대화 시스템에서 감수성을 보이는 경우가 많음.
- Glaese et al. (2022)는 시스템의 출력에서 인격화 및 감수성을 제한하기 위한 패널티를 부과함.
- 행위 및 책임
- 대화 시스템은 대화의 ‘대리인’으로 언급되지만, 책임이 필요한 진정한 대리인은 아님.
- 시스템의 실수에 대한 책임을 인정하면 인격화되기 쉬움.
- 많은 시스템이 논란이 되는 주제를 피하기 위해 노력하고 있음.
- 공감
- 대화 시스템이 공감적 응답을 제공하려는 최근의 노력.
- 그러나 시스템은 감정을 인식하거나 공감할 수 없음.
- 이러한 성향은 대화 시스템의 인격화를 더욱 강화함.
- 인간과 유사한 활동
- 대화 시스템이 인간만의 능력이나 신체적 활동을 주장하는 경향이 있음.
- Gros et al. (2022)의 연구 결과, 일부 시스템은 기계 불가능한 발언을 함.
- 대명사 사용
- 제3인칭 대명사 사용은 사용자가 시스템을 인격화하는 증거가 됨.
- 1인칭 대명사 사용은 의식의 표현으로 해석될 수 있음.
- 다양한 언어에서 대명사의 사용이 인격화 인식에 영향을 미칠 수 있음.
3.3 Register and Style
-
인간은 다양한 문맥에 따라 소통을 위해 언어적 특성을 사용하여 여러 레지스터와 스타일을 전달하는 능력이 있음 (Biber and Conrad, 2009).
-
자동화 시스템의 출력에서 인류적 성향을 줄이기 위해, 기능적이고 사회적 스타일 특성을 피하는 것이 바람직할 수 있음.
- 사회적 표현:
- 인사말과 같은 문구는 인간 간의 사회적 관계를 형성하고 유지하는 데 사용되지만, 정보 전달이 없으므로 (불필요하게) 자동화 시스템에서 출력될 때 인간적 감각을 더해줄 수 있음 (Leong and Selinger, 2019).
- 신뢰와 의구심 표현:
- Dinan et al. (2022)는 사람들이 생성된 출력의 사실성을 과대평가하는 ‘사기꾼 효과’를 설명함.
- 그러나 Mielke et al. (2022)는 표현된 신뢰도가 일반 지식 질문의 정확한 답변 확률에 잘 맞지 않음을 발견함.
- 따라서 다이얼로그 시스템을 훈련시켜 출력에서 불확실성을 반영하도록 하며, “잘 모르겠지만…“과 같은 인간적인 완화구(hedging) 문구를 포함하도록 콘텐츠를 변경함.
- 과대평가는 사기꾼 효과를 초래할 수 있지만, 완화구는 인간적 신호를 강화할 수 있음.
- 페르소나:
- 많은 다이얼로그 시스템은 상업 시스템의 경우 신중하게 설계된 페르소나 또는 크라우드 소싱 데이터셋을 통해 유도된 페르소나로 개발됨 (Zhang et al., 2018).
- 이러한 페르소나는 종종 인간 캐릭터를 기반으로 하며, 실질적으로는 단순한 인간의 특성과 행동 목록에 불과함 (see §3.2).
- 시스템에 인간 캐릭터 기반 페르소나를 부여하는 노력은 인류주의에 대한 시도임.
- Glaese et al. (2022)는 시스템이 인간 정체성처럼 보이도록 하는 규칙을 포함하여 이를 해결함.
- 예를 들어, Personachat의 각 페르소나는 “나는 채식주의자입니다. 수영을 좋아합니다…“와 같은 진술 목록으로 구성됨 (Zhang et al., 2018).
3.4 Roles
- 서브서비스 역할
- 대부분의 대화 시스템은 사용자의 하위 비서적인 역할로 설계됨 (Lingel and Crawford, 2020)
- 이로 인해 사용자들이 시스템을 언어적으로 학대하는 경향 발생 (West et al., 2019)
- 불만의 표현을 넘어 성별에 기반한 비하 발언으로 이어짐 (Cercas Curry et al., 2021)
- 시스템이 사용자의 공격에 순응적으로 반응할 수 있음으로써 이러한 행동이 더 조장될 수 있음 (Cercas Curry and Rieser, 2018)
- 자격 없는 전문성
- 시스템은 적절한 자격 없이 전문성을 지닌 것으로 나타날 수 있음 (Dinan et al., 2022)
- 예: 상업적 규칙 기반 및 종단 간 연구 시스템이 의료 질문에 대해 고위험 진단 및 치료 계획을 제공 (Abercrombie and Rieser, 2022; Omri et al., 2023)
- 대화형 QA 시스템이 브라우저 기반 검색의 대체 역할을 수행하게 되면서 사용자는 시스템이 단일 정답을 제공한다고 믿게 됨 (Shah and Bender, 2022)
- 용어 사용
- 언어 모델과 같은 기술을 설명하는 인격화된 언어 및 전문 용어 사용이 일반 대중의 능력에 대한 부정확한 인식을 초래함 (Hunger, 2023; Salles et al., 2020; Shanahan, 2023)
- 대화 시스템은 ‘알다’, ‘생각하다’, ‘훈련하다’, ‘배우다’, ‘이해하다’, ‘환각하다’, ‘지능’ 등의 인격적 의미를 지닌 용어로 자신의 기계적 및 통계적 과정에 대한 참조를 출력할 가능성이 있음
4 Consequences of Anthropomorphism
- 신뢰 및 기만
- 사람들은 자동화된 시스템과 상호작용할 때, 그 본질을 모르고 있으면 행동이 달라질 수 있음.
- Chiesurin et al. (2023)의 연구에 따르면, 자연스러운 언어 사용이 과도한 시스템 응답은 무분별한 신뢰를 유발할 수 있음.
- 신뢰는 시스템의 의인화 행동에 따라 증가하지만, 이는 반드시 정당화되는 것은 아님.
- 특히 취약한 계층(어린이, 노인, 장애인 등)은 이러한 신뢰 문제에 더 취약함.
- 아이들은 음성 비서의 지능을 과대평가하고, 감정이 있는지에 대한 확신이 부족함 (Andries and Robertson, 2023).
- 기계의 성별화
- 사람들은 최소한의 성별 표지조차도 기술에 성별을 부여함 (Reeves and Nass, 1996).
- 상업적 대화 시스템에서도 성별화가 나타남 (Abercrombie et al., 2021).
- 성별 표지가 없음에도 불구하고 사람들은 대화 시스템에 이분법적 성별을 적용함 (Aylett et al., 2019; Sutton, 2020).
- 비트윈 성별이나 성중립적인 대화 시스템은 거의 존재하지 않음.
- UN의 입장에 따르면, 사용자가 기술에 대한 설계에 참여할 권리가 있음 (Dignum et al., 2021).
- 언어 변화 및 백인 중심성
- Cave와 Dihal (2020)는 자율 인공지능에 대한 이야기에서, 백인에게만 부여된 속성(자율성, 권한)이 사람의 생각에서 다른 인종을 지우는 데 기여한다고 주장함.
- NLP 기술은 주로 백인 인구의 언어 사용을 포착하도록 개발됨 (Moran, 2021).
- 대화 시스템에서, 음성 또한 주로 백인 음성이 대부분을 차지함.
- 사용자가 기계의 인식 가능한 언어 변형에 맞춰 언어를 조정해야 하는 상황이 발생하며, 이는 일종의 언어 경찰 역할을 할 수 있음.
- 이러한 경향은 소외된 커뮤니티의 지워짐을 악화시킬 수 있음.
- 정형화된 시스템 출력
- 대화 시스템의 출력은 특정 억양을 우선시하는 경향이 있음.
- 소외된 커뮤니티는 자신의 억양을 채택해야 하며, 이는 ‘지식의 오라클’로서의 백인 중심 대화 시스템의 재확인을 초래할 수 있음.
5 Recommendations
- 인간화 경향 인식하기
- 인간은 언어적 형태와 의미를 구분하지 않으며, 대화 시스템에서 신호를 통해 의미를 유추함.
- 불필요한 인간화 언어 신호는 사람들에게 시스템의 인지 능력을 잘못 인식하게 할 수 있음.
- 대화 시스템의 제작자는 이러한 경향을 인지하고 인간화 신호의 사용을 신중히 고려해야 함.
- 인간화 도구의 적절성 고려하기
- 대화 시스템 설계 시 신호의 의미를 적절히 고려하여 인간화의 과도한 통합을 피할 것.
- 특정 맥락에서만 인간화가 문제인지 판단할 수 있고, 예를 들어 청소 로봇과 대화 시스템은 다르게 접근해야 함.
- 연구 목표 재평가하기
- AI 연구의 전통적인 목표는 인간과 구별할 수 없는 지능 시스템을 만드는 것.
- 인간화된 행동을 보이는 시스템이 지능과 이해를 혼동하게 만들 수 있음.
- 개발자는 비인간적이라고 인식될 수 있는 음성을 생성하도록 조정할 필요가 있음.
- 인간화된 시스템 설명 피하기
- 현재 언어 기술의 본질과 능력에 대한 혼란이 광범위하게 존재함.
- 인간화된 언어 사용은 과학적 소통에서의 실패를 나타내며, 이는 대중의 이해도와 행동에 큰 영향을 미침.
- 시스템을 설명할 때 사용하는 언어가 사람들의 인식에 미치는 영향을 심사숙고할 것.
6 Conclusion
- 대화 시스템의 의인화는 사용자 참여를 유도하기 위해 연구자들에게 매력적임.
- 그러나 고도로 의인화된 시스템은 잘못된 신뢰를 형성하고, 출력 정보의 왜곡을 초래하는 등의 부작용을 유발할 수 있음.
- 개발자와 디자이너가 의인화 신호를 배제하려고 해도, 인간은 여전히 시스템을 의인화하여 인식할 수 있음.
- 따라서 시스템이 어떻게 의인화될 수 있는지를 신중히 고려하는 것이 중요함.
- 각 상황에 맞는 적절한 특성을 선택함으로써, 개발자와 디자이너는 인간의 환상을 만들지 않도록 할 수 있음.
Limitations
- 제시된 언어적 요인들은 사용자가 대화 시스템을 인간화할 가능성을 증가시킬 수 있지만, 이 목록은 포괄적이지 않음.
- 인간화는 개인마다 다르게 나타나며, 사람들은 시스템 디자인의 여러 측면에 따라 다르게 반응할 수 있음.
- 본 논문은 연구자와 개발자들이 디자인 선택의 함의에 대해 고려하는 데 첫걸음이 되는 자료임.
- 저자들이 인도유럽어 사용자인 점과 NLP 연구에서 영어의 우위로 인해 영문 대화 시스템에 주로 집중하였음.
- 다른 언어는 생명체를 나타내는 문법적 특성 및 성별 등을 포함하여, 시스템의 인간화에 영향을 미칠 수 있는 요소가 있으므로 개발자는 이를 고려해야 함.
Ethical Considerations
- 원고는 대화 시스템의 인격화 및 의인화를 최소화하는 방법을 제시.
- 인격화된 시스템 생성 가이드로도 활용 가능.
- 연구자, 개발자, 디자이너에게 인격화로 인한 우려를 해결하기 위한 접근법 제시.
- OpenAI의 ChatGPT 및 Microsoft의 Sydney와 같은 시스템의 출현으로 인격화 문제의 중요성 증가.
- 언어 생성 성능이 매우 높은 대화 시스템에 대한 경각심 환기.
독자 의견
- 본 논문에서는 AI의 의인화에 대해 다루고 있으며, 어떤 요소가 의인화에 작용하는지에 대한 논문들을 서베이 및 정리하였다.
- 심리학 학회 아닌 NLP 학회에서 이런 종류의 논문이 나온 것이 신선하다.
- 이는 AI가 인간과 인간의 심리적인 측면에 점점 더 가까워지고 있음을 의미하는 바일 것이다.
- 기술적 특이점이 얼마남지 않을 것으로 예측되는 지금 시점에서 많은 물음을 던지는 논문이다.
Comments