[논문리뷰] PAED: Zero-Shot Persona Attribute Extraction in Dialogues (ACL 2023)

17 minute read

퍼소나 속성 추출은 개인화된 인간-컴퓨터 상호작용에 중요하며, 대화는 퍼소나 정보를 전달하는 주요 매체입니다. 본 연구는 신뢰할 수 있는 텍스트-레이블 매칭 기준을 활용하여 고품질 데이터를 생성하고, 대조 학습 및 생성 기반 모델을 통해 제로샷 퍼소나 속성 추출을 개선합니다. 결과적으로 우리의 모델은 최첨단 기준과 비교해 뛰어난 정확도를 보여주며, 샘플링 전략은 다른 방법들보다 큰 성과를 나타냅니다.

1 Introduction

대화에 대한 페르소나 속성 추출 (PAED):
- 페르소나 기반 대화 시스템에 중요한 작업.
- 대화에서 페르소나 속성 정보를 추출하여 개인화된 응답 생성에 활용.
이전 연구:
- PAED를 문장 수준 또는 발화 수준 분류 작업으로 정의.
- 텍스트 내 페르소나 정보 포함 여부를 분류함.
현재 문제점:
- 발견된 텍스트는 구조적이지 않아 하위 대화 시스템에서 유용성 낮음.
- 예: 동일 페르소나 속성에 대한 서로 다른 표현과 관련 없는 맥락.
PAED의 새로운 정의:
- 삼중항 추출 작업으로 정의.
- 발화에서 주어, 객체, 관계를 추출해야 함.
- 추출된 속성은 $(s, r, o)$ 형식의 삼중항으로 표현되며, $r$은 주어 $s$와 객체 $o$ 사이의 페르소나 속성 유형을 나타냄.
기존 RTE와의 차별점:
- 기존 관계 삼중항 추출 작업은 문서에서 사실이나 지식을 설명하는 텍스트 기반.
- 대화에서는 다양한 관계가 존재하여 샘플 문제 발생.
데이터셋 문제점:
- Wu et al. (2020)가 제안한 데이터셋은 레이블이 잘 정의되지 않음.
- 부정적인 표현 조합이 한 종류의 관계로 묶여 오류 발생.
새로운 데이터셋 PersonaExt 개발:
- Dialogue NLI와 PersonaChat 데이터셋에서 데이터 수집.
- 이전 데이터셋의 1896개 삼중항 레이블을 수동으로 수정하여 구체성 향상.
- BERT 및 TF-IDF를 활용하여 신뢰성 높은 레이블 할당.
평가 결과:
- PersonaExt가 레이블 구체성과 주석 정확도에서 개선된 성과를 보임.
GZSL을 통한 PAED 정의:
- 훈련 발화가 모든 관계 유형을 포함하지 않을 수 있어 GZSL 태스크로 정의.
- 어려운 샘플 문제가 더욱 심각해짐.
새로운 프레임워크 제안:
- 제너레이션 기반 프레임워크와 하드 네거티브 샘플링(HNS) 전략 도입.
- Meta-V AE 샘플러와 대조적 구조 제약(CSC)을 결합하여 모델 성능 향상.
주요 기여:
1. 1,896개의 재주석된 삼중항을 포함하는 PAED 데이터셋 PersonaExt 개발.
2. 제로샷 PAED를 위한 제너레이션 기반 프레임워크 제안.
3. 제로샷 PAED 및 부정 샘플링에서 강력한 기준선보다 우수한 성과 유지.

2.1 Persona Extraction

초기 정의: 페르소나 추출은 사용자의 속성을 예측하는 분류 작업으로 시작됨
- 성별 (Ciot et al., 2013)
- 나이 (Alekseev and Nikolenko, 2016)
- 의견 (Li et al., 2023)
- 직업 (Preo¸ tiuc-Pietro et al., 2015)
- 선호도 (Cambria et al., 2022)
언어 추론으로의 재정의: Welleck et al. (2020)은 발화와 페르소나 설명 간의 관계를 학습하여 자연어 추론 작업으로 정의
생성 작업으로의 재정의:
- Wu et al. (2020)은 페르소나 추출을 생성 작업으로 형식화
- 두 단계 추출기를 통해 대화에서 구조적이고 사용하기 쉬운 사용자 속성 추출
- 그러나 이 추출기는 제로샷 설정을 위해 설계되지 않음
수식 설명 예시:
- 예를 들어, 페르소나 속성 추출을 위해 $P(X, Y)$의 관계를 학습할 때, $X$는 발화, $Y$는 페르소나 속성을 나타냄

2.2 Relation Triplet Extraction

RTE(관계 삼중 항 추출)는 관계와 엔티티를 동시에 추출하는 것으로 정의됨 (He et al., 2023; Li and Ji, 2014).
많은 기존 모델(Gupta et al., 2016; Zhang et al., 2017; Geng et al., 2021)은 이전에 보지 못한 관계에 일반화할 수 없음.
이는 PAED(프롬프트 기반 대화 엔티티 추출)에서 피할 수 없는 문제임.
Chia et al. (2022)는 제로샷(zero-shot) 환경에서 RTE를 위한 프레임워크 RelationPrompt를 제안함.
하지만, 기존의 모델은 문서에 맞춰져 있어 PAED에 직접 사용할 수 없음.
대화에서는 주체와 객체가 여러 가능한 관계를 가질 수 있어 더 어려운 샘플이 존재함.
제로샷 PAED를 위해 이러한 어려운 샘플을 처리해야 함.

2.3 Hard Negative Sampling

부정 샘플링은 대조 학습(Contrastive Learning)과 심층 메트릭 학습(Deep Metric Learning)의 핵심 요소로 입증됨.
- 참고 문헌: Robinson et al., 2020; Du et al., 2021; Suh et al., 2019
많은 관계 추출 방법(Relation Extraction, RTE)들이 견고한 부정 샘플링 전략의 혜택을 받음.
- 참고 문헌: Qin et al., 2018; Yuan et al., 2021b; Eberts and Ulges, 2020; Guo et al., 2022; Chen et al., 2022
하드 부정 샘플은 피처 공간에서 긍정 샘플과 가까워서 성능에 중요한 영향을 미침.
컴퓨터 비전 관련 연구와는 달리, RTE 및 제로샷(zero-shot) 환경에서는 HNS에 대한 연구가 드뭄.
- 참고 문헌: Shrivastava et al., 2016; Liao and Shao, 2022
기존의 공동 RTE 샘플러는 하드 샘플을 위한 설계가 아님.
- 참고 문헌: Eberts and Ulges, 2020; Yuan et al., 2021a; Zeng et al., 2021
본 연구에서는 VAE(변분 오토인코더)를 활용한 HNS 전략을 개발하여 하드 부정 샘플을 선택하고, 추출기의 표현 능력을 향상시킴.

3 PersonaExt Construction

데이터셋 개발: PersonaExt 데이터셋은 PAED를 위해 개발됨.
- 다중 회화 데이터셋에서 구성: 예) PersonaChat, Dialogue NLI
- PersonaChat는 개인 프로필이 포함된 대화 말뭉치로 사용됨.
PersonaChat 특징:
- 2명의 크라우드 작업자가 사전 정의된 페르소나에 기반하여 대화.
- 페르소나는 식품 선호, 직업 상태, 교육 등으로 구성됨.
- 각 페르소나에는 4~6개의 문장이 포함됨.
- 총 1,155개의 페르소나와 10,907개의 대화가 포함됨.
Dialogue NLI 활용:
- 대화 발화(u)와 PersonaChat의 페르소나 문장(p)에 대해 (s, r, o) 형식의 트리플로 주석 추가.
- (p, u) 및 (p, p) 쌍에 대해 함의(entailment), 중립(neutral), 모순(contradiction) 레이블 생성.
트리플 레이블 예시:
- “I adopted a cat”와 “I have a cat named Alfred”는 트리플 (I, have_pet, cat)로 레이블됨 → 함의.
- 서로 다른 트리플 가진 문장들은 중립 또는 모순으로 간주됨.
레이블 문제:
- Dialogue NLI의 많은 발화는 트리플 레이블이 없음.
- Wu et al. (2020)은 레이블 커버리지를 개선하는 그리디 방법 사용.
자동 레이블 할당 전략:
- 페르소나 문장(p) 또는 발화(ui)에 트리플 레이블을 할당할 때, 함의 관계가 예측될 경우 사용.
- 예측 모델: BERT 또는 TF-IDF 분류기.
라벨 품질 개선:
- Dialogue NLI의 트리플과 Wu et al. (2020)의 데이터셋은 불확실성 및 일관성 문제를 가짐.
- PersonaExt 구성에서 자동 교차 할당 전략과 수동 속성 트리플 레이블 수정을 사용하여 레이블 품질 향상.

3.1 Automatic Intersection Assignment

Greedy 선택 방법(Wu et al., 2020)에서 주어진 모든 트리플 레이블을 수용하지 않음.
보수적으로, por ui의 트리플 레이블을 발화 uj에 할당:
- 조건: BERT와 TF-IDF가 (p, uj) 또는 (ui, uj)가 포함 관계에 있다고 나타내야 함.
이 변경 사항은 레이블 신뢰성을 크게 향상시킴.
그러나 이 방법은 일부 레이블을 놓칠 가능성이 있음.
신뢰할 수 있는 인물 정보를 추출하는 것이 현실적인 응용에 더 적합하다고 봄:
- 대화 시스템은 잘못된 정보 사용을 피해야 함.
- 일부 인물 정보는 보수적으로 무시될 수 있음.

3.2 Attribute Triplet Label Correction

재주석 필요성
- Dialogue NLI의 관계 유형 및 엔티티에 대한 재주석 필요.
- 일관성과 구체성 문제 존재.
일관성 (Consistency)
- 일부 퍼소나 문장 내용이 발화에 나타나지 않음.
- 예시: 퍼소나 문장 “I have 1 cat and I dislike dogs”에서 triplet (I, dislike, dogs)는 발화 “I usually play with my cat”에 나타나지 않음.
- 결과적으로, Dialogue NLI에서 과도한 주석됨.
구체성 (Specificity)
- 관계 유형은 다른 유형과 구별될 수 있도록 구체적이어야 함.
- 대부분의 부정어(예: never, don’t have)는 Dialogue NLI에서 ‘other’로 분류됨.
- 우리는 이들을 never_do와 have_no로 분류할 것을 예상.
제안된 방법론
- 1단계: 부정어가 있는 퍼소나 문장을 수집하고 수동으로 재주석.
  - 1,896개의 문장이 수정됨.
- 2단계: § 3.1의 방법에 따라 각 발화에 triplet 할당.
- 3단계: SnowballStemmer2를 사용해 과도한 주석(중복된 숫자, 근거 없는 부사, 형용사 등)을 제거하여 일관성 유지.
  - 총 6,357개의 문장이 처리됨.
주석 프로세스
- 퍼소나 문장 1,896개에 대해 전문가를 초청하여 수동 주석 진행.
- 일관성을 보장하기 위해 단일 주석자를 초대함.
- 주석자 간 카파값: 0.72.
- 82.8%의 주석이 두 부주석자에 의해 지지됨.
신규 생성된 triplet 평가
- 두 영어 사용 대학원생이 무작위로 선택된 150개의 발화를 점수화.
- 점수 기준: 일관성 (cns.) 및 구체성 (spec.)
- 평균 점수 결과:
  - PersonaExt가 Wu et al. (2020) 데이터셋을 크게 발전시킴.

4 Generalized Zero-Shot PAED

제안된 프레임워크는 일반화된 제로샷 학습(GZSL) 설정에서 PAED를 위한 것임.
프레임워크는 두 가지 주요 구성 요소로 이루어져 있음:
- Persona Attribute Generator (PAG):
  - 개인 특성을 포함한 대화 발화를 생성하도록 훈련됨.
- Persona Attribute Extractor (PAE):
  - 합성 데이터에서 훈련되며, 보이지 않는 대상 데이터의 특성 삼중항을 추출함.
  - PAE는 사전 훈련된 언어 모델(PLM)을 기반으로 하며, 제안된 MetaV AE 샘플러와 CSC 손실로 강화됨.

4.1 Task Definition

PAED 데이터셋은 $D = (U, Y)$로 표현됨.
- $U$: 입력 대화 발화 세트
- $Y$: 페르소나 속성 세트
속성 삼중항은 $y = (s, r, o) \in Y$로 정의됨.
- $s$: 주체 (subject)
- $r$: 관계 유형 (relation type)
- $o$: 객체 (object)
일반화된 제로샷 PAED의 목표:
- 모델을 보이는 데이터 $D_s$로 학습하고 보이지 않는 테스트 데이터 $D_t$에 일반화.
학습 중:
- $D_s$와 테스트 관계 $R_t$가 사용 가능 (Verma et al., 2018).
테스트 시:
- 훈련된 모델의 관계 탐색 공간은 $R_s \cup R_t$로 구성되며, 생성 기반 PAE의 특성으로 인해 더욱 확장됨.
- $R_s \cap R_t = \emptyset$.
테스트 발화는 훈련 관계 $r_s$ 또는 테스트 관계 $r_t$에 할당 가능.
- 조건: $r_s \in R_s$, $r_t \in R_t$ (Xian et al., 2018).

4.2 Persona Attribute Generator

프롬프트 튜닝(Prompt tuning):
- 제로샷 학습에서 PLMs(Pre-trained Language Models)의 일반화 향상 입증 (Lester et al., 2021)
- 사전 훈련 작업과 하류 작업 간의 간극을 메꿈 (Mao et al., 2023)
PAG(페르소나 속성 생성기):
- 훈련 데이터 $D_s$에서 훈련 후, 관계 $r_t$를 사용하여 합성 데이터 $D_{syn}$ 생성
- Verma et al. (2018)의 연구 방법 따름
테스트 단계:
- 프롬프트 “RELATION : r” 제공
- PAG는 “CONTEXT : u, SUBJECT : s, OBJECT : o” 형태의 구조적 출력 생성
훈련 방법:
- 인과 언어 모델링 목표에 따라 훈련
- 다음 단어 예측: $p(x_i \vert x_{<i}; t_p) = PAG(x_{<i})$
  - 여기서 $x_i$는 입력 토큰 “RELATION : r, CONTEXT : u, SUBJECT : s, OBJECT : o”의 i번째 토큰
- 손실 함수: $L_g = \sum_{i=1}^{n} \log p(x_i \vert x_{<i}; t_p)$
- 온도(t_p) 조절:
  - 다양성 조정 (Hinton et al., 2015)

4.3 Persona Attribute Extractor

PAE(퍼소나 속성 추출기)는 PLM(사전 훈련 언어 모델)을 기반으로 하여 훈련 데이터 $D_s$에서 파인튜닝을 수행함.
이후, PAG에서 생성된 합성 샘플 $D_{syn}$에 대해 추출기를 추가로 조정함.
PAE는 seq-to-seq 목표를 가지고 훈련됨 (Lewis et al., 2020).
프롬프트 “CONTEXT : u”를 주면, 추출기는 구조화된 출력을 예측함:
- “SUBJECT : s, OBJECT : o, RELATION : r”.
예시:
- 입력: “I enjoy playing with cats”
- 출력: $(I, like\_animal, cats)$.
PAE는 대화 발화에서의 관계 유형 구별이 어려워짐:
- 예: “like”를 “hate”로 변경하는 것으로 의미가 완전히 반대가 될 수 있음.
이를 해결하기 위해 CSC(대조 구조 제약)와 메타-VAE 샘플러를 제안하고, 각각 § 4.5 및 § 4.4에서 소개됨.

4.4 Meta-V AE Sampler

모델의 전제는 각 관계 유형에 대해 Meta-V AE가 해당 관계를 가진 모든 발화의 분포를 캡처한다는 것임.
발화 $u_i$와 $u_j$가 각각 관계 $r_i$와 $r_j$를 가지며, $r_i$와 $r_j$의 분포 거리가 가까우면 서로 하드 네거티브 샘플로 간주됨.
예시: 발화 $u$(I enjoy playing with cats)의 triplet $(s^+, r^+, o^+)$는 (I, like_animal, cats)이며, 이는 관계 클래스 like_animal을 가진 문장임.
CSC의 긍정 샘플은 다음과 같이 형성됨:
- CONTEXT : I enjoy playing with cats
- SUBJECT : I
- OBJECT : cats
- RELATION : like_animal
Meta-V AE 샘플러를 통해 relation like_animal에 가장 가까운 top-k 관계(like_music, like_sport, have_pet)를 검색함.
각 검색된 관계 $r'$에 대해, 예를 들어 like_sport, 임의의 발화 $u$ (I enjoy playing basketball)를 선택함.
선택된 $k$개의 발화는 같은 triplet $(s^+, r^+, o^+)$로 하드 네거티브 샘플을 생성함.
예시의 하드 네거티브 샘플:
- CONTEXT : I enjoy playing basketball
- SUBJECT : I
- OBJECT : cats
- RELATION : like_animal
추출기는 긍정 샘플과 부정 샘플을 벡터 공간에서 분산시키도록 훈련됨.
Meta-V AE는 KL 발산과 다음 단어 예측 손실을 기반으로 훈련됨, 이는 식 (Eq. 4)으로 표현됨.

4.4.1 Meta-V AE

V AE 개념
- Kingma와 Welling(2014)에 의해 제안됨.
- 주어진 데이터셋에 대해 잠재 연속 랜덤 변수 $z$의 사전 분포 $p_\theta(z)$를 근사.

관계 타입 r에 따른 V AE 훈련

특정 관계 타입 r에 대해 각 데이터셋에 맞춰 V AE를 훈련.

각 관계 클래스의 수 $$

$에 따라$

$$개의 서로 다른 V AE 생성.

하지만 파라미터 효율성이 낮음.

Meta-V AE 제안
- 복잡성 감소를 위해 제안됨.
- 각 관계 클래스를 관계 임베딩 $Embr(r)$로 매핑.
- 임베딩된 발화 $Embu(u)$와 관계 임베딩을 연결하여 V AE에 투입.
- 연결 기반 조건화는 하이퍼네트워크의 특별한 경우임.
GRU 활용
- Meta-V AE의 인코더 및 디코더로 GRU 사용.
- GRU의 업데이트 및 리셋 게이트 구조를 고려하여 간소화.
- 관계 임베딩을 GRU 인코더의 초기 숨겨진 상태로 제공.
- 이 과정은 덧셈과 연결 주의(attention)와 같음.
경량화된 식
- Eqs. (2)와 (3)에서 관계 임베딩을 게이트 업데이트에 활용:
  - \[a_j^1 = \sigma(W_a Embu(x_1) + U_a Embr(r))_j\]
  - \[c_j^1 = \sigma(W_c Embu(x_1) + U_c Embr(r))_j\]
목표 함수
- Meta-V AE의 경험적 목표:
  - \[L_h(u; \theta, \phi, \tau) = -DKL(q_{\phi,\tau}(z|u) \| p_{\theta,\tau}(z)) + \frac{1}{L} \sum_{l} \log p_{\theta,\tau}(u|z^{(l)})\]
- 관계 $r$에 대해:
  - 선형 분포 $$z^{(l)} = q_{\phi,\tau}(z u) \sim N(\mu_\tau, \sigma_\tau^2 I)$$.
  - 생성 분포 $$p_{\theta,\tau}(u z)$조건부로 데이터$u$$ 생성.
파라미터
- $z^{(l)}$ 및 분포와 관련하여 파라미터 $\theta, \phi, \tau$는 학습 가능함.
- $L$은 샘플 개수를 나타냄.

4.4.2 Sampling Criteria

잠재 변수 모델은 적은 수의 잠재 변수를 통해 변수 분포를 나타낼 수 있음 (Bishop, 1998).
잠재 변수 $z_r$는 서로 다른 관계 $r$를 가진 발화의 분포를 포착.
KL 발산(Kullback and Leibler, 1951):
- $z_i$와 $z_j$의 분포 간 거리를 표현.
- 관계 클래스 $r_i$와 $r_j$에 대한 잠재 변수 $z_i$, $z_j$에 대해 가정:
  - $z \sim N(z; \mu, \Sigma)$, 모든 구성 요소가 독립적: $\Sigma_{i,j} = 0$ (이때 $i \neq j$).
KL 발산 공식을 다음과 같이 정의: $D_{KL}(P_i || P_j) = E_{P_i} \left[ \log \frac{P_i}{P_j} \right] = \frac{1}{2} \left\{ \log \frac{|\Sigma_j|}{|\Sigma_i|} - n + \text{tr}(\Sigma_j^{-1} \Sigma_i) + (\mu_j - \mu_i)^T \Sigma_j^{-1} (\mu_j - \mu_i) \right\}$
$\Sigma$를 대각 행렬로 가정 시, 수식 간소화: $D_{KL}(P_i || P_j) = \frac{1}{2} \left\{ \text{tr}(\log \Sigma_j - \log \Sigma_i) - n + \text{tr} \left( \frac{\Sigma_i}{\Sigma_j} \right) + (\mu_j - \mu_i)^T \cdots \Sigma_j^{-1} (\mu_j - \mu_i) \right\}$
샘플링 전략:
- 각 관계 클래스 $r_i$에 대해 무작위로 발화 하나 선택.
- 학습된 Meta-V AE에 입력하여 $z_i$ 산출.
- $z_i$와 $z_j$의 분포 간 거리 계산: 관계 $r_i$와 $r_j$ 간 거리.
- 각 관계 $r_i$에 대해 가장 가까운 상위 $k$ 관계 선택.
- 각 상위 $k$ 관계에서 무작위로 발화 하나 선택하여 $k$개의 어려운 부정 샘플 생성.
샘플링 알고리즘의 세부사항은 부록 C에 설명되어 있음.

4.5 Contrastive Structured Constraint

기존의 세대 기반 삼중 추출 방법은 삼중이 입력 발화 $u$와 일치해야 한다는 사실에 주목하지 않음 (Ye et al., 2021).
일부 대화 발화의 유사한 토큰 분포는 문제를 악화시킴.
- 예: “$\text{My mom}$“에서 고양이에 대한 속성 삼중 “(My mom, have_pet, 1 cat)”을 추출하고 싶지 “(My mom, like_animal, 1 cat)”를 추출하는 것.
전자는 고양이가 어머니에게 속함을 명시적으로 전달하지만, 후자는 소유의 속성을 전달하지 않음.
이에 따라 삼중 대조 학습을 이진 분류 문제로 변환:
- 발화 $u_t$에 대해 레이블 $(s^+, r^+, o^+)$이 주어짐.
- 메타 변환 샘플러에서 $k$개의 하드 샘플 $(u^{-}_{t,1}, \ldots, u^{-}_{t,k})$을 추출.
- 긍정 샘플은 “CONTEXT : $u_t$, SUBJECT : $s^+$, OBJECT : $o^+$, RELATION : $r^+$“로 표현.
- 부정 샘플은 “CONTEXT : $u^{-}_{t,j}$, SUBJECT : $s^+$, OBJECT : $o^+$, RELATION : $r^+$“로 표현.
마지막 입력 토큰의 숨겨진 상태 $h^+_i$ (긍정) 및 $h^{-}_j$ (부정)를 PAE에서 추출 후 완전 연결층에 입력하여 분류 로짓 $l$을 계산.
샘플을 고정된 긍정/부정 극성으로 수렴시키는 대신, CSC를 사용하여 긍정 및 부정 샘플을 재배치하고 서로 멀어지게 함.
구조적 대조 손실은 KL 발산을 기반으로 하며, 수식은 다음과 같음:

L_c = -D_{KL}(l^+ \vert\vert l^-) - D_{KL}(l^- \vert\vert l^+) = - \sum_{i=1}^{L} \sum_{j=1}^{k} \frac{1}{k}(l^+_i \log \frac{l^+_i}{l^-_j} + l^-_j \log \frac{l^-_j}{l^+_i}).
여기서 $l^+_i$는 i번째 긍정 샘플의 로짓, $l^-_j$는 j번째 부정 샘플의 로짓.

5 Experiments

모델 실험 대상: PersonaExt (PerExt) 및 FewRel 데이터셋
목적:
- 다중 삼각형 추출 기능 탐색
- 제로샷 관계 추론(Zero-shot RTE) 가능성 평가
데이터셋 통계:
- FewRel: 56,000 샘플, 72,964 개체, 80 관계, 평균 길이 24.95
- PersonaExt: 35,078 샘플, 3,295 개체, 105 관계, 평균 길이 13.44
평가 성능 지표:
- 다중 삼각형 추출: MicroF1(Paolini et al., 2020), 정밀도(P), 재현율(R)
- 단일 삼각형 추출: 정확도(Acc.)

5.1 Datasets

FewRel 데이터셋은 위키백과와 위키데이터에서 후보 관계 및 인스턴스를 자동으로 추출한 후, 인간 주석을 통해 저품질 관계를 필터링하는 방식으로 구축됨 (Han et al., 2018).
Chia et al. (2022)의 방법을 따르며, FewRel을 제로샷 RTE에 적합하게 만들기 위해 작업을 수행.
두 데이터셋에서는 훈련 중 무작위로 고정된 수의 보이는(label) 및 보이지 않는(unseen) 레이블을 선택.
보이지 않는 레이블의 크기(n)는 세 가지 점진적인 설정 {5, 10, 15}으로 설정.
일관된 실험 결과를 위해 다섯 가지 서로 다른 무작위 시드를 사용하여 보이는 및 보이지 않는 레이블의 조합을 반복적으로 선택, 다섯 가지 데이터 폴드 생성.
각 데이터 폴드는 훈련, 검증 및 테스트 세트로 구성됨.
테스트 세트에는 보이지 않는 레이블이 포함된 문장이 포함됨.
검증 세트는 하이퍼파라미터 튜닝을 위해 사용되는 다섯 개의 레이블을 포함.
남은 문장은 훈련 세트를 구성.
이러한 설정을 통해 훈련, 검증 및 테스트 문장이 서로 다른 레이블 세트에서 오도록 보장.

5.2 Baselines

TableSequence (TS) (Wang and Lu, 2020)
- 주로_named entity recognition_과_relation extraction_의 공동 학습을 위해 설계됨.
RelationPrompt (RP) (Chia et al., 2022)
- 제로샷 관계 추출(zero-shot RTE)을 해결하기 위해 첫 번째로 PLM을 프롬프트하여 관계 레이블에 따라 관계 샘플을 합성함.
SpERT (Eberts and Ulges, 2020)
- 강력한 부정 샘플러를 전이함.
- 현재 발화의 삼중항(s+, r+, o+)과 다른 발화(s−, r−, o−)를 연결하여 사용.
- 부정 삼중항은 (s+, r, o−) 또는 (s−, r, o+) 형태이며, 여기서 $r^*$는 임의의 관계 유형.
실험 결과 표 (n=5, 10, 15에 대한 각 모델 성능)
- TS, RP, OURS 모델의 P, R, F1, Acc. 수치 제시 (요약필요).
RSAN (Yuan et al., 2021b)
- 현재 문장과 다른 여러 관계를 무작위로 선택함.
GenTaxo (Zeng et al., 2021)
- 무작위로 삼중항(s−, r−, o−)을 선택하고, 그로부터 (s+, r+, o−) 또는 (s−, r+, o+) 형태의 부정 삼중항을 생성함.

5.3 Setups

모델 사용:
- PLM GPT-2 (Radford et al., 2019): 124M 파라미터, PAG로 사용
- BART (Lewis et al., 2020): 140M 파라미터, PAE로 사용
- MetaV AE 샘플러: 2.4M 파라미터
모델 훈련:
- 훈련 세트에서 5 에폭동안 파인튜닝
- 최적 모델 파라미터는 검증 손실 기준으로 선택
- 옵티마이저: AdamW (Loshchilov 및 Hutter, 2018)
하이퍼파라미터 설정:
- 배치 사이즈: PAG 128, PAE 32
- 학습률: PAG 3e-5, PAE 6e-5, Meta-V AE 0.005
- 워밍업 비율: 0.2
문장 합성:
- 각 관계에 대해 250개의 문장을 PAG를 이용하여 합성
- 합성 문장에 대해 PAE 다시 파인튜닝
디코딩 전략:
- 단일 트리플렛 추출: 탐욕적 디코딩 전략
- 다중 트리플렛 추출: 트리플렛 검색 디코딩(TSD) 전략 (Chia et al., 2022)
추가 정보:
- 세부 구현 사항은 Appendix B에 포함되어 있음.

5.4 Experimental Results

주요 결과:
- 일반화된 제로샷 RTE 및 PAED의 주요 결과는 표 3에 보고됨.
- 각 $n \in \{5, 10, 15\}$에 대해 5개의 서로 다른 데이터 접기(folds)를 3회 실행하고 평균을 구함.
- 유의 수준은 0.05로 설정.
성과 비교:
- 모든 설정에서 OURS가 RP를 평균 1.06% 초과 달성 (PersonaExt).
- FewRel 데이터셋에서도 대부분의 설정에서 OURS가 RP보다 성능이 우수함.
결과 요약:
소거 연구(Ablation study):
- HNS는 Meta-V AE 샘플러 & CSC를 의미함.
- 다중 트리플 추출에서 유의미한 개선을 $3.18\%$로 평가하며, 이는 훈련 중 어려운 샘플을 도입한 Meta-V AE 샘플러 덕분.
- OURS는 RP보다 항상 높은 정밀도($3.22\%$의 평균)를 기록함.
문제점:
- PAED에서 거짓 긍정 문제는 거짓 부정보다 더 심각하며, 화자가 무관심보다 혼란을 더 용인할 가능성이 큼.
기타:
- 결과는 제로샷 RTE에서의 프레임워크의 일반화 능력을 보여줌.

5.5 Ablation Study

PersonaExt 데이터셋에서 ablation study를 수행
Meta-V AE 샘플러와 여러 기준 샘플러 비교
모든 샘플러는 동일한 랜덤 시드 및 CSC 손실 사용
세 가지 보지 못한 레이블 설정으로 실행 후 평균 정확도 보고
결과:
- Meta-V AE 샘플러가 평균 2.66% 더 높은 성능 기록
- 가장 강력한 기준선인 GenTaxo를 1.37% 초과
Meta-V AE 샘플러의 우수한 성능은 다양한 관계의 분포에 대한 좋은 근사 덕분
HNS를 제거했을 때 성능이 크게 감소, 그러나 여전히 일부 기준 샘플러보다 우수
나쁜 샘플러는 개선보다는 성능하락을 초래할 수 있음
따라서 샘플러가 하드 네거티브 샘플을 정확히 식별하는 것이 대조 학습의 성공에 필수적임

5.6 Revisiting Meta-V AE Sampler with CSC

KL 발산 증가
- 합성 데이터셋에서 미세 조정 시 양수 샘플과 음수 샘플 간의 KL 발산이 증가함.
- 이는 CSC 손실을 공식화하는 과정에서 KL 발산을 사용했기 때문임.
샘플 분포 분석
- 미세 조정 전후의 양수 및 음수 샘플 분포를 연구함 (Fig. 2 참조).
- PCA(주성분 분석)를 통해 샘플 표현을 분해하여 scatter plot 생성.
그룹 분포
- 그룹 1 (Fig. 2 (b)): 다양한 관계 유형에 따라 양수 샘플과 음수 샘플의 분포를 보여줌.
- 그룹 2 (Fig. 2 (c)): 유사한 방식으로 다른 관계 유형에서 샘플 분포 확인.
- 그룹 3 (Fig. 2 (d)): 모든 그룹에서 샘플들이 긍정적 샘플 주위에 밀집해 있음.
결론
- Meta-V AE 샘플러는 의미적으로 가장 가까운 어려운 음수 샘플을 찾을 수 있음.
- CSC 손실은 긍정적 및 부정적 샘플이 의미적 벡터 공간에서 퍼지도록 함.
- 이는 모델이 샘플들을 더 효과적으로 재배치할 수 있게 함.

5.7 Case Study

사례 설명:
- 세 가지 PAED 사례가 그림 3에 제시됨.
장점과 단점:
- 사례 1과 3에서 RP 방법으로 추출된 객체들이 관계와 잘 맞지 않음.
- RP는 사실과 반대되는 잘못된 관계를 추출 (사례 1과 2)함.
강점:
- 우리의 추출기는 어려운 부정 샘플을 다루는 데 유리하다는 강한 성능을 보임.
구체성 문제:
- 사례 2의 객체 ‘all’은 구체적이지 않음.
주석 일관성 문제:
- Wu et al. (2020)의 사례 1과 3의 관계 및 객체 주석이 발화와 일치하지 않음.
추출 결과 비교:
- 사례 1:
  - RP: I, like_general, blond
  - OURS: I, dislike_general, beach
  - Wu et al.: I, employed_by_general, arena
  - PersonaExt: I, dislike_general, beach
- 사례 2:
  - RP: I, dislike_general, cars
  - OURS: I, like_general, cars
  - Wu et al.: I, dislike, all
  - PersonaExt: I, like_general, cars
- 사례 3:
  - RP: I, like_general, exotic
  - OURS: I, favorite_place, jamaica
  - Wu et al.: I, like_activity, traveling
  - PersonaExt: I, favorite_place, jamaica

5.8 Exploration of Experimental Settings

프레임워크의 강건성 탐색
- PAE의 디코딩 전략과 PAG에서 생성된 샘플의 데이터 크기가 PersonaExt 데이터셋에 미치는 영향을 분석.
디코딩 전략 비교
- Table 5에서 세 가지 보이지 않는 라벨 설정을 사용하여 정확도 변화 비교.
- 기본 탐욕적(greedy) 전략과 다른 디코딩 전략 비교.
- top-k 랜덤 샘플링이 성능을 약화시킴. (Fan et al., 2018)
  - 개방형 생성에서 효과적이지만, PAED에는 부적합.
TSD 개선 효과
- TSD가 PAED 작업에서 단일 트리플 추출의 정확도를 개선.
  - RP의 성능 개선을 위해 제안됨.
- 비록 정확도가 증가하였으나, 계산 시간이 상당히 증가함.
실험 결과
- RelationExt 데이터셋에서 10개의 보이지 않는 라벨로 실험 진행.
- 합성 데이터의 크기를 250에서 550으로 변화시키며 강건성 확인.
- 합성 샘플 수를 1에서 100으로 증가시킬 때, 정확도에 뚜렷한 개선 관찰.
- 최적 성능은 450개의 합성 샘플에서 달성.
- 합성 데이터 크기의 추가 증가는 점진적인 정확도 감소로 이어짐.
Table 5의 결과 요약
- top-k 샘플링 사용 시 정확도 변화:
  - n=5: -3.66
  - n=10: -2.77
  - n=15: -1.66
- TSD 사용 시 정확도 변화:
  - n=5: 0.54
  - n=10: 0.60
  - n=15: 0.07
Figure 4 설명
- 합성 샘플 수에 따른 PAED의 정확도 변화를 보여줌.

6 Conclusion

연구 목적: 본 연구에서는 대화에서 인물 속성 추출(PAED)을 위한 일반화된 제로샷 학습을 조사함.
데이터셋 구축:
- PersonaChat와 Dialogue NLI를 기반으로 PersonaExt를 구축.
- 반자동 주석 프레임워크를 통해 일관되고 구체적인 트리플 레이블 생성.
모델 제안:
- 효과적이고 해석 가능한 Meta-V AE 샘플러와 CSC 손실을 사용하여 어려운 네거티브 샘플 처리.
- 이를 PAE에 통합하여 일반화된 제로샷 PAED 작업 수행.
실험 결과:
- 제안한 프레임워크가 가장 강력한 기준선보다 훨씬 우수함을 입증.
- 시각화된 정량적 분석을 통해 Meta-V AE 샘플러 및 CSC의 작동 메커니즘을 상세히 설명.
제한 사항:
- 이론적 지원 부족으로 인해 현재 단계의 암묵적 인물 속성에 대한 주석 체계 formalization 어려움.
- 예를 들어, 문장 “매일, 나는 개인적으로 내 개를 산책시키고 이웃의 털복숭이 친구들을 가끔 산책시키는 것을 도와준다”에서 암묵적인 트리플 (I, like_animal, dogs) 추출 어려움.
- PersonaExt는 암묵적이거나 여러 인물 속성 트리플 추출 작업과 호환되지 않음.
- 현재 발화의 맥락에서 보완 정보를 활용하지 않음.
모델의 어려움:
- 여러 대화 발화가 있는 입력의 경우, 대명사 및 여러 발화자가 존재하여 추출된 인물 트리플을 특정 화자와 일치시키기 어려움.
감사의 말씀:
- 이 연구는 과학 기술 연구 기관(A*STAR)의 AME 프로그램 기금 지원을 받음 (프로젝트 #A18A2b0046).
윤리적 고지:
- 인간 주석은 공격적인 콘텐츠가 없고 개인 식별 정보를 수집하지 않도록 최대한 주의를 기울여 수행됨.
- 주석자에게 주석의 목적과 적절한 사용에 대한 포괄적 설명 제공, informed consent 확보.

Hanyong Lee