[논문리뷰] PAED: Zero-Shot Persona Attribute Extraction in Dialogues (ACL 2023)
퍼소나 속성 추출은 개인화된 인간-컴퓨터 상호작용에 중요하며, 대화는 퍼소나 정보를 전달하는 주요 매체입니다. 본 연구는 신뢰할 수 있는 텍스트-레이블 매칭 기준을 활용하여 고품질 데이터를 생성하고, 대조 학습 및 생성 기반 모델을 통해 제로샷 퍼소나 속성 추출을 개선합니다. 결과적으로 우리의 모델은 최첨단 기준과 비교해 뛰어난 정확도를 보여주며, 샘플링 전략은 다른 방법들보다 큰 성과를 나타냅니다.
1 Introduction
- 대화에 대한 페르소나 속성 추출 (PAED):
- 페르소나 기반 대화 시스템에 중요한 작업.
- 대화에서 페르소나 속성 정보를 추출하여 개인화된 응답 생성에 활용.
- 이전 연구:
- PAED를 문장 수준 또는 발화 수준 분류 작업으로 정의.
- 텍스트 내 페르소나 정보 포함 여부를 분류함.
- 현재 문제점:
- 발견된 텍스트는 구조적이지 않아 하위 대화 시스템에서 유용성 낮음.
- 예: 동일 페르소나 속성에 대한 서로 다른 표현과 관련 없는 맥락.
- PAED의 새로운 정의:
- 삼중항 추출 작업으로 정의.
- 발화에서 주어, 객체, 관계를 추출해야 함.
- 추출된 속성은 \((s, r, o)\) 형식의 삼중항으로 표현되며, \(r\)은 주어 \(s\)와 객체 \(o\) 사이의 페르소나 속성 유형을 나타냄.
- 기존 RTE와의 차별점:
- 기존 관계 삼중항 추출 작업은 문서에서 사실이나 지식을 설명하는 텍스트 기반.
- 대화에서는 다양한 관계가 존재하여 샘플 문제 발생.
- 데이터셋 문제점:
- Wu et al. (2020)가 제안한 데이터셋은 레이블이 잘 정의되지 않음.
- 부정적인 표현 조합이 한 종류의 관계로 묶여 오류 발생.
- 새로운 데이터셋 PersonaExt 개발:
- Dialogue NLI와 PersonaChat 데이터셋에서 데이터 수집.
- 이전 데이터셋의 1896개 삼중항 레이블을 수동으로 수정하여 구체성 향상.
- BERT 및 TF-IDF를 활용하여 신뢰성 높은 레이블 할당.
- 평가 결과:
- PersonaExt가 레이블 구체성과 주석 정확도에서 개선된 성과를 보임.
- GZSL을 통한 PAED 정의:
- 훈련 발화가 모든 관계 유형을 포함하지 않을 수 있어 GZSL 태스크로 정의.
- 어려운 샘플 문제가 더욱 심각해짐.
- 새로운 프레임워크 제안:
- 제너레이션 기반 프레임워크와 하드 네거티브 샘플링(HNS) 전략 도입.
- Meta-V AE 샘플러와 대조적 구조 제약(CSC)을 결합하여 모델 성능 향상.
- 주요 기여:
- 1,896개의 재주석된 삼중항을 포함하는 PAED 데이터셋 PersonaExt 개발.
- 제로샷 PAED를 위한 제너레이션 기반 프레임워크 제안.
- 제로샷 PAED 및 부정 샘플링에서 강력한 기준선보다 우수한 성과 유지.
2.1 Persona Extraction
- 초기 정의: 페르소나 추출은 사용자의 속성을 예측하는 분류 작업으로 시작됨
- 성별 (Ciot et al., 2013)
- 나이 (Alekseev and Nikolenko, 2016)
- 의견 (Li et al., 2023)
- 직업 (Preo¸ tiuc-Pietro et al., 2015)
- 선호도 (Cambria et al., 2022)
-
언어 추론으로의 재정의: Welleck et al. (2020)은 발화와 페르소나 설명 간의 관계를 학습하여 자연어 추론 작업으로 정의
- 생성 작업으로의 재정의:
- Wu et al. (2020)은 페르소나 추출을 생성 작업으로 형식화
- 두 단계 추출기를 통해 대화에서 구조적이고 사용하기 쉬운 사용자 속성 추출
- 그러나 이 추출기는 제로샷 설정을 위해 설계되지 않음
- 수식 설명 예시:
- 예를 들어, 페르소나 속성 추출을 위해 \(P(X, Y)\)의 관계를 학습할 때, \(X\)는 발화, \(Y\)는 페르소나 속성을 나타냄
2.2 Relation Triplet Extraction
- RTE(관계 삼중 항 추출)는 관계와 엔티티를 동시에 추출하는 것으로 정의됨 (He et al., 2023; Li and Ji, 2014).
- 많은 기존 모델(Gupta et al., 2016; Zhang et al., 2017; Geng et al., 2021)은 이전에 보지 못한 관계에 일반화할 수 없음.
- 이는 PAED(프롬프트 기반 대화 엔티티 추출)에서 피할 수 없는 문제임.
- Chia et al. (2022)는 제로샷(zero-shot) 환경에서 RTE를 위한 프레임워크 RelationPrompt를 제안함.
- 하지만, 기존의 모델은 문서에 맞춰져 있어 PAED에 직접 사용할 수 없음.
- 대화에서는 주체와 객체가 여러 가능한 관계를 가질 수 있어 더 어려운 샘플이 존재함.
- 제로샷 PAED를 위해 이러한 어려운 샘플을 처리해야 함.
2.3 Hard Negative Sampling
- 부정 샘플링은 대조 학습(Contrastive Learning)과 심층 메트릭 학습(Deep Metric Learning)의 핵심 요소로 입증됨.
- 참고 문헌: Robinson et al., 2020; Du et al., 2021; Suh et al., 2019
- 많은 관계 추출 방법(Relation Extraction, RTE)들이 견고한 부정 샘플링 전략의 혜택을 받음.
- 참고 문헌: Qin et al., 2018; Yuan et al., 2021b; Eberts and Ulges, 2020; Guo et al., 2022; Chen et al., 2022
-
하드 부정 샘플은 피처 공간에서 긍정 샘플과 가까워서 성능에 중요한 영향을 미침.
- 컴퓨터 비전 관련 연구와는 달리, RTE 및 제로샷(zero-shot) 환경에서는 HNS에 대한 연구가 드뭄.
- 참고 문헌: Shrivastava et al., 2016; Liao and Shao, 2022
- 기존의 공동 RTE 샘플러는 하드 샘플을 위한 설계가 아님.
- 참고 문헌: Eberts and Ulges, 2020; Yuan et al., 2021a; Zeng et al., 2021
- 본 연구에서는 VAE(변분 오토인코더)를 활용한 HNS 전략을 개발하여 하드 부정 샘플을 선택하고, 추출기의 표현 능력을 향상시킴.
3 PersonaExt Construction
- 데이터셋 개발: PersonaExt 데이터셋은 PAED를 위해 개발됨.
- 다중 회화 데이터셋에서 구성: 예) PersonaChat, Dialogue NLI
- PersonaChat는 개인 프로필이 포함된 대화 말뭉치로 사용됨.
- PersonaChat 특징:
- 2명의 크라우드 작업자가 사전 정의된 페르소나에 기반하여 대화.
- 페르소나는 식품 선호, 직업 상태, 교육 등으로 구성됨.
- 각 페르소나에는 4~6개의 문장이 포함됨.
- 총 1,155개의 페르소나와 10,907개의 대화가 포함됨.
- Dialogue NLI 활용:
- 대화 발화(u)와 PersonaChat의 페르소나 문장(p)에 대해 (s, r, o) 형식의 트리플로 주석 추가.
- (p, u) 및 (p, p) 쌍에 대해 함의(entailment), 중립(neutral), 모순(contradiction) 레이블 생성.
- 트리플 레이블 예시:
- “I adopted a cat”와 “I have a cat named Alfred”는 트리플 (I, have_pet, cat)로 레이블됨 → 함의.
- 서로 다른 트리플 가진 문장들은 중립 또는 모순으로 간주됨.
- 레이블 문제:
- Dialogue NLI의 많은 발화는 트리플 레이블이 없음.
- Wu et al. (2020)은 레이블 커버리지를 개선하는 그리디 방법 사용.
- 자동 레이블 할당 전략:
- 페르소나 문장(p) 또는 발화(ui)에 트리플 레이블을 할당할 때, 함의 관계가 예측될 경우 사용.
- 예측 모델: BERT 또는 TF-IDF 분류기.
- 라벨 품질 개선:
- Dialogue NLI의 트리플과 Wu et al. (2020)의 데이터셋은 불확실성 및 일관성 문제를 가짐.
- PersonaExt 구성에서 자동 교차 할당 전략과 수동 속성 트리플 레이블 수정을 사용하여 레이블 품질 향상.
3.1 Automatic Intersection Assignment
- Greedy 선택 방법(Wu et al., 2020)에서 주어진 모든 트리플 레이블을 수용하지 않음.
- 보수적으로, por ui의 트리플 레이블을 발화 uj에 할당:
- 조건: BERT와 TF-IDF가 (p, uj) 또는 (ui, uj)가 포함 관계에 있다고 나타내야 함.
- 이 변경 사항은 레이블 신뢰성을 크게 향상시킴.
- 그러나 이 방법은 일부 레이블을 놓칠 가능성이 있음.
- 신뢰할 수 있는 인물 정보를 추출하는 것이 현실적인 응용에 더 적합하다고 봄:
- 대화 시스템은 잘못된 정보 사용을 피해야 함.
- 일부 인물 정보는 보수적으로 무시될 수 있음.
3.2 Attribute Triplet Label Correction
- 재주석 필요성
- Dialogue NLI의 관계 유형 및 엔티티에 대한 재주석 필요.
- 일관성과 구체성 문제 존재.
- 일관성 (Consistency)
- 일부 퍼소나 문장 내용이 발화에 나타나지 않음.
- 예시: 퍼소나 문장 “I have 1 cat and I dislike dogs”에서 triplet (I, dislike, dogs)는 발화 “I usually play with my cat”에 나타나지 않음.
- 결과적으로, Dialogue NLI에서 과도한 주석됨.
- 구체성 (Specificity)
- 관계 유형은 다른 유형과 구별될 수 있도록 구체적이어야 함.
- 대부분의 부정어(예: never, don’t have)는 Dialogue NLI에서 ‘other’로 분류됨.
- 우리는 이들을 never_do와 have_no로 분류할 것을 예상.
- 제안된 방법론
- 1단계: 부정어가 있는 퍼소나 문장을 수집하고 수동으로 재주석.
- 1,896개의 문장이 수정됨.
- 2단계: § 3.1의 방법에 따라 각 발화에 triplet 할당.
- 3단계: SnowballStemmer2를 사용해 과도한 주석(중복된 숫자, 근거 없는 부사, 형용사 등)을 제거하여 일관성 유지.
- 총 6,357개의 문장이 처리됨.
- 1단계: 부정어가 있는 퍼소나 문장을 수집하고 수동으로 재주석.
- 주석 프로세스
- 퍼소나 문장 1,896개에 대해 전문가를 초청하여 수동 주석 진행.
- 일관성을 보장하기 위해 단일 주석자를 초대함.
- 주석자 간 카파값: 0.72.
- 82.8%의 주석이 두 부주석자에 의해 지지됨.
- 신규 생성된 triplet 평가
- 두 영어 사용 대학원생이 무작위로 선택된 150개의 발화를 점수화.
- 점수 기준: 일관성 (cns.) 및 구체성 (spec.)
- 평균 점수 결과:
- PersonaExt가 Wu et al. (2020) 데이터셋을 크게 발전시킴.
4 Generalized Zero-Shot PAED
- 제안된 프레임워크는 일반화된 제로샷 학습(GZSL) 설정에서 PAED를 위한 것임.
- 프레임워크는 두 가지 주요 구성 요소로 이루어져 있음:
- Persona Attribute Generator (PAG):
- 개인 특성을 포함한 대화 발화를 생성하도록 훈련됨.
- Persona Attribute Extractor (PAE):
- 합성 데이터에서 훈련되며, 보이지 않는 대상 데이터의 특성 삼중항을 추출함.
- PAE는 사전 훈련된 언어 모델(PLM)을 기반으로 하며, 제안된 MetaV AE 샘플러와 CSC 손실로 강화됨.
- Persona Attribute Generator (PAG):
4.1 Task Definition
- PAED 데이터셋은 \(D = (U, Y)\)로 표현됨.
- \(U\): 입력 대화 발화 세트
- \(Y\): 페르소나 속성 세트
- 속성 삼중항은 \(y = (s, r, o) \in Y\)로 정의됨.
- \(s\): 주체 (subject)
- \(r\): 관계 유형 (relation type)
- \(o\): 객체 (object)
- 일반화된 제로샷 PAED의 목표:
- 모델을 보이는 데이터 \(D_s\)로 학습하고 보이지 않는 테스트 데이터 \(D_t\)에 일반화.
- 학습 중:
- \(D_s\)와 테스트 관계 \(R_t\)가 사용 가능 (Verma et al., 2018).
- 테스트 시:
- 훈련된 모델의 관계 탐색 공간은 \(R_s \cup R_t\)로 구성되며, 생성 기반 PAE의 특성으로 인해 더욱 확장됨.
- \(R_s \cap R_t = \emptyset\).
- 테스트 발화는 훈련 관계 \(r_s\) 또는 테스트 관계 \(r_t\)에 할당 가능.
- 조건: \(r_s \in R_s\), \(r_t \in R_t\) (Xian et al., 2018).
4.2 Persona Attribute Generator
- 프롬프트 튜닝(Prompt tuning):
- 제로샷 학습에서 PLMs(Pre-trained Language Models)의 일반화 향상 입증 (Lester et al., 2021)
- 사전 훈련 작업과 하류 작업 간의 간극을 메꿈 (Mao et al., 2023)
- PAG(페르소나 속성 생성기):
- 훈련 데이터 \(D_s\)에서 훈련 후, 관계 \(r_t\)를 사용하여 합성 데이터 \(D_{syn}\) 생성
- Verma et al. (2018)의 연구 방법 따름
- 테스트 단계:
- 프롬프트 “RELATION : r” 제공
- PAG는 “CONTEXT : u, SUBJECT : s, OBJECT : o” 형태의 구조적 출력 생성
- 훈련 방법:
- 인과 언어 모델링 목표에 따라 훈련
- 다음 단어 예측:
\(p(x_i \vert x_{<i}; t_p) = PAG(x_{<i})\)
- 여기서 \(x_i\)는 입력 토큰 “RELATION : r, CONTEXT : u, SUBJECT : s, OBJECT : o”의 i번째 토큰
- 손실 함수: \(L_g = \sum_{i=1}^{n} \log p(x_i \vert x_{<i}; t_p)\)
- 온도(t_p) 조절:
- 다양성 조정 (Hinton et al., 2015)
4.3 Persona Attribute Extractor
- PAE(퍼소나 속성 추출기)는 PLM(사전 훈련 언어 모델)을 기반으로 하여 훈련 데이터 \(D_s\)에서 파인튜닝을 수행함.
- 이후, PAG에서 생성된 합성 샘플 \(D_{syn}\)에 대해 추출기를 추가로 조정함.
- PAE는 seq-to-seq 목표를 가지고 훈련됨 (Lewis et al., 2020).
- 프롬프트 “CONTEXT : u”를 주면, 추출기는 구조화된 출력을 예측함:
- “SUBJECT : s, OBJECT : o, RELATION : r”.
- 예시:
- 입력: “I enjoy playing with cats”
- 출력: \((I, like\_animal, cats)\).
- PAE는 대화 발화에서의 관계 유형 구별이 어려워짐:
- 예: “like”를 “hate”로 변경하는 것으로 의미가 완전히 반대가 될 수 있음.
- 이를 해결하기 위해 CSC(대조 구조 제약)와 메타-VAE 샘플러를 제안하고, 각각 § 4.5 및 § 4.4에서 소개됨.
4.4 Meta-V AE Sampler
- 모델의 전제는 각 관계 유형에 대해 Meta-V AE가 해당 관계를 가진 모든 발화의 분포를 캡처한다는 것임.
- 발화 \(u_i\)와 \(u_j\)가 각각 관계 \(r_i\)와 \(r_j\)를 가지며, \(r_i\)와 \(r_j\)의 분포 거리가 가까우면 서로 하드 네거티브 샘플로 간주됨.
- 예시: 발화 \(u\)(I enjoy playing with cats)의 triplet \((s^+, r^+, o^+)\)는 (I, like_animal, cats)이며, 이는 관계 클래스 like_animal을 가진 문장임.
- CSC의 긍정 샘플은 다음과 같이 형성됨:
- CONTEXT : I enjoy playing with cats
- SUBJECT : I
- OBJECT : cats
- RELATION : like_animal
- Meta-V AE 샘플러를 통해 relation like_animal에 가장 가까운 top-k 관계(like_music, like_sport, have_pet)를 검색함.
- 각 검색된 관계 \(r'\)에 대해, 예를 들어 like_sport, 임의의 발화 \(u\) (I enjoy playing basketball)를 선택함.
- 선택된 \(k\)개의 발화는 같은 triplet \((s^+, r^+, o^+)\)로 하드 네거티브 샘플을 생성함.
- 예시의 하드 네거티브 샘플:
- CONTEXT : I enjoy playing basketball
- SUBJECT : I
- OBJECT : cats
- RELATION : like_animal
- 추출기는 긍정 샘플과 부정 샘플을 벡터 공간에서 분산시키도록 훈련됨.
- Meta-V AE는 KL 발산과 다음 단어 예측 손실을 기반으로 훈련됨, 이는 식 (Eq. 4)으로 표현됨.
4.4.1 Meta-V AE
- V AE 개념
- Kingma와 Welling(2014)에 의해 제안됨.
- 주어진 데이터셋에 대해 잠재 연속 랜덤 변수 \(z\)의 사전 분포 \(p_\theta(z)\)를 근사.
- 관계 타입 r에 따른 V AE 훈련
- 특정 관계 타입 r에 대해 각 데이터셋에 맞춰 V AE를 훈련.
-
각 관계 클래스의 수 $$ R \(에 따라\) R $$개의 서로 다른 V AE 생성. - 하지만 파라미터 효율성이 낮음.
- Meta-V AE 제안
- 복잡성 감소를 위해 제안됨.
- 각 관계 클래스를 관계 임베딩 \(Embr(r)\)로 매핑.
- 임베딩된 발화 \(Embu(u)\)와 관계 임베딩을 연결하여 V AE에 투입.
- 연결 기반 조건화는 하이퍼네트워크의 특별한 경우임.
- GRU 활용
- Meta-V AE의 인코더 및 디코더로 GRU 사용.
- GRU의 업데이트 및 리셋 게이트 구조를 고려하여 간소화.
- 관계 임베딩을 GRU 인코더의 초기 숨겨진 상태로 제공.
- 이 과정은 덧셈과 연결 주의(attention)와 같음.
- 경량화된 식
- Eqs. (2)와 (3)에서 관계 임베딩을 게이트 업데이트에 활용:
- \[a_j^1 = \sigma(W_a Embu(x_1) + U_a Embr(r))_j\]
- \[c_j^1 = \sigma(W_c Embu(x_1) + U_c Embr(r))_j\]
- Eqs. (2)와 (3)에서 관계 임베딩을 게이트 업데이트에 활용:
- 목표 함수
- Meta-V AE의 경험적 목표:
- \[L_h(u; \theta, \phi, \tau) = -DKL(q_{\phi,\tau}(z|u) \| p_{\theta,\tau}(z)) + \frac{1}{L} \sum_{l} \log p_{\theta,\tau}(u|z^{(l)})\]
- 관계 \(r\)에 대해:
-
선형 분포 $$z^{(l)} = q_{\phi,\tau}(z u) \sim N(\mu_\tau, \sigma_\tau^2 I)$$. -
생성 분포 $$p_{\theta,\tau}(u z)\(조건부로 데이터\)u$$ 생성.
-
- Meta-V AE의 경험적 목표:
- 파라미터
- \(z^{(l)}\) 및 분포와 관련하여 파라미터 \(\theta, \phi, \tau\)는 학습 가능함.
- \(L\)은 샘플 개수를 나타냄.
4.4.2 Sampling Criteria
- 잠재 변수 모델은 적은 수의 잠재 변수를 통해 변수 분포를 나타낼 수 있음 (Bishop, 1998).
-
잠재 변수 \(z_r\)는 서로 다른 관계 \(r\)를 가진 발화의 분포를 포착.
- KL 발산(Kullback and Leibler, 1951):
- \(z_i\)와 \(z_j\)의 분포 간 거리를 표현.
- 관계 클래스 \(r_i\)와 \(r_j\)에 대한 잠재 변수 \(z_i\), \(z_j\)에 대해 가정:
- \(z \sim N(z; \mu, \Sigma)\), 모든 구성 요소가 독립적: \(\Sigma_{i,j} = 0\) (이때 \(i \neq j\)).
-
KL 발산 공식을 다음과 같이 정의: \(D_{KL}(P_i || P_j) = E_{P_i} \left[ \log \frac{P_i}{P_j} \right] = \frac{1}{2} \left\{ \log \frac{|\Sigma_j|}{|\Sigma_i|} - n + \text{tr}(\Sigma_j^{-1} \Sigma_i) + (\mu_j - \mu_i)^T \Sigma_j^{-1} (\mu_j - \mu_i) \right\}\)
-
\(\Sigma\)를 대각 행렬로 가정 시, 수식 간소화: \(D_{KL}(P_i || P_j) = \frac{1}{2} \left\{ \text{tr}(\log \Sigma_j - \log \Sigma_i) - n + \text{tr} \left( \frac{\Sigma_i}{\Sigma_j} \right) + (\mu_j - \mu_i)^T \cdots \Sigma_j^{-1} (\mu_j - \mu_i) \right\}\)
- 샘플링 전략:
- 각 관계 클래스 \(r_i\)에 대해 무작위로 발화 하나 선택.
- 학습된 Meta-V AE에 입력하여 \(z_i\) 산출.
- \(z_i\)와 \(z_j\)의 분포 간 거리 계산: 관계 \(r_i\)와 \(r_j\) 간 거리.
- 각 관계 \(r_i\)에 대해 가장 가까운 상위 \(k\) 관계 선택.
- 각 상위 \(k\) 관계에서 무작위로 발화 하나 선택하여 \(k\)개의 어려운 부정 샘플 생성.
- 샘플링 알고리즘의 세부사항은 부록 C에 설명되어 있음.
4.5 Contrastive Structured Constraint
- 기존의 세대 기반 삼중 추출 방법은 삼중이 입력 발화 \(u\)와 일치해야 한다는 사실에 주목하지 않음 (Ye et al., 2021).
- 일부 대화 발화의 유사한 토큰 분포는 문제를 악화시킴.
- 예: “\(\text{My mom}\)“에서 고양이에 대한 속성 삼중 “(My mom, have_pet, 1 cat)”을 추출하고 싶지 “(My mom, like_animal, 1 cat)”를 추출하는 것.
- 전자는 고양이가 어머니에게 속함을 명시적으로 전달하지만, 후자는 소유의 속성을 전달하지 않음.
- 이에 따라 삼중 대조 학습을 이진 분류 문제로 변환:
- 발화 \(u_t\)에 대해 레이블 \((s^+, r^+, o^+)\)이 주어짐.
- 메타 변환 샘플러에서 \(k\)개의 하드 샘플 \((u^{-}_{t,1}, \ldots, u^{-}_{t,k})\)을 추출.
- 긍정 샘플은 “CONTEXT : \(u_t\), SUBJECT : \(s^+\), OBJECT : \(o^+\), RELATION : \(r^+\)“로 표현.
- 부정 샘플은 “CONTEXT : \(u^{-}_{t,j}\), SUBJECT : \(s^+\), OBJECT : \(o^+\), RELATION : \(r^+\)“로 표현.
- 마지막 입력 토큰의 숨겨진 상태 \(h^+_i\) (긍정) 및 \(h^{-}_j\) (부정)를 PAE에서 추출 후 완전 연결층에 입력하여 분류 로짓 \(l\)을 계산.
- 샘플을 고정된 긍정/부정 극성으로 수렴시키는 대신, CSC를 사용하여 긍정 및 부정 샘플을 재배치하고 서로 멀어지게 함.
-
구조적 대조 손실은 KL 발산을 기반으로 하며, 수식은 다음과 같음:
\(\)L_c = -D_{KL}(l^+ \vert\vert l^-) - D_{KL}(l^- \vert\vert l^+) = - \sum_{i=1}^{L} \sum_{j=1}^{k} \frac{1}{k}(l^+_i \log \frac{l^+_i}{l^-_j} + l^-_j \log \frac{l^-_j}{l^+_i}).\(\)
- 여기서 \(l^+_i\)는 i번째 긍정 샘플의 로짓, \(l^-_j\)는 j번째 부정 샘플의 로짓.
5 Experiments
- 모델 실험 대상: PersonaExt (PerExt) 및 FewRel 데이터셋
- 목적:
- 다중 삼각형 추출 기능 탐색
- 제로샷 관계 추론(Zero-shot RTE) 가능성 평가
- 데이터셋 통계:
- FewRel: 56,000 샘플, 72,964 개체, 80 관계, 평균 길이 24.95
- PersonaExt: 35,078 샘플, 3,295 개체, 105 관계, 평균 길이 13.44
- 평가 성능 지표:
- 다중 삼각형 추출: MicroF1(Paolini et al., 2020), 정밀도(P), 재현율(R)
- 단일 삼각형 추출: 정확도(Acc.)
5.1 Datasets
- FewRel 데이터셋은 위키백과와 위키데이터에서 후보 관계 및 인스턴스를 자동으로 추출한 후, 인간 주석을 통해 저품질 관계를 필터링하는 방식으로 구축됨 (Han et al., 2018).
- Chia et al. (2022)의 방법을 따르며, FewRel을 제로샷 RTE에 적합하게 만들기 위해 작업을 수행.
- 두 데이터셋에서는 훈련 중 무작위로 고정된 수의 보이는(label) 및 보이지 않는(unseen) 레이블을 선택.
- 보이지 않는 레이블의 크기(n)는 세 가지 점진적인 설정 {5, 10, 15}으로 설정.
- 일관된 실험 결과를 위해 다섯 가지 서로 다른 무작위 시드를 사용하여 보이는 및 보이지 않는 레이블의 조합을 반복적으로 선택, 다섯 가지 데이터 폴드 생성.
- 각 데이터 폴드는 훈련, 검증 및 테스트 세트로 구성됨.
- 테스트 세트에는 보이지 않는 레이블이 포함된 문장이 포함됨.
- 검증 세트는 하이퍼파라미터 튜닝을 위해 사용되는 다섯 개의 레이블을 포함.
- 남은 문장은 훈련 세트를 구성.
- 이러한 설정을 통해 훈련, 검증 및 테스트 문장이 서로 다른 레이블 세트에서 오도록 보장.
5.2 Baselines
- TableSequence (TS) (Wang and Lu, 2020)
- 주로_named entity recognition_과_relation extraction_의 공동 학습을 위해 설계됨.
- RelationPrompt (RP) (Chia et al., 2022)
- 제로샷 관계 추출(zero-shot RTE)을 해결하기 위해 첫 번째로 PLM을 프롬프트하여 관계 레이블에 따라 관계 샘플을 합성함.
- SpERT (Eberts and Ulges, 2020)
- 강력한 부정 샘플러를 전이함.
- 현재 발화의 삼중항(s+, r+, o+)과 다른 발화(s−, r−, o−)를 연결하여 사용.
- 부정 삼중항은 (s+, r, o−) 또는 (s−, r, o+) 형태이며, 여기서 \(r^*\)는 임의의 관계 유형.
- 실험 결과 표 (n=5, 10, 15에 대한 각 모델 성능)
- TS, RP, OURS 모델의 P, R, F1, Acc. 수치 제시 (요약필요).
- RSAN (Yuan et al., 2021b)
- 현재 문장과 다른 여러 관계를 무작위로 선택함.
- GenTaxo (Zeng et al., 2021)
- 무작위로 삼중항(s−, r−, o−)을 선택하고, 그로부터 (s+, r+, o−) 또는 (s−, r+, o+) 형태의 부정 삼중항을 생성함.
5.3 Setups
- 모델 사용:
- PLM GPT-2 (Radford et al., 2019): 124M 파라미터, PAG로 사용
- BART (Lewis et al., 2020): 140M 파라미터, PAE로 사용
- MetaV AE 샘플러: 2.4M 파라미터
- 모델 훈련:
- 훈련 세트에서 5 에폭동안 파인튜닝
- 최적 모델 파라미터는 검증 손실 기준으로 선택
- 옵티마이저: AdamW (Loshchilov 및 Hutter, 2018)
- 하이퍼파라미터 설정:
- 배치 사이즈: PAG 128, PAE 32
- 학습률: PAG 3e-5, PAE 6e-5, Meta-V AE 0.005
- 워밍업 비율: 0.2
- 문장 합성:
- 각 관계에 대해 250개의 문장을 PAG를 이용하여 합성
- 합성 문장에 대해 PAE 다시 파인튜닝
- 디코딩 전략:
- 단일 트리플렛 추출: 탐욕적 디코딩 전략
- 다중 트리플렛 추출: 트리플렛 검색 디코딩(TSD) 전략 (Chia et al., 2022)
- 추가 정보:
- 세부 구현 사항은 Appendix B에 포함되어 있음.
5.4 Experimental Results
- 주요 결과:
- 일반화된 제로샷 RTE 및 PAED의 주요 결과는 표 3에 보고됨.
- 각 \(n \in \{5, 10, 15\}\)에 대해 5개의 서로 다른 데이터 접기(folds)를 3회 실행하고 평균을 구함.
- 유의 수준은 0.05로 설정.
- 성과 비교:
- 모든 설정에서 OURS가 RP를 평균 1.06% 초과 달성 (PersonaExt).
- FewRel 데이터셋에서도 대부분의 설정에서 OURS가 RP보다 성능이 우수함.
-
결과 요약:
- 소거 연구(Ablation study):
- HNS는 Meta-V AE 샘플러 & CSC를 의미함.
- 다중 트리플 추출에서 유의미한 개선을 \(3.18\%\)로 평가하며, 이는 훈련 중 어려운 샘플을 도입한 Meta-V AE 샘플러 덕분.
- OURS는 RP보다 항상 높은 정밀도(\(3.22\%\)의 평균)를 기록함.
- 문제점:
- PAED에서 거짓 긍정 문제는 거짓 부정보다 더 심각하며, 화자가 무관심보다 혼란을 더 용인할 가능성이 큼.
- 기타:
- 결과는 제로샷 RTE에서의 프레임워크의 일반화 능력을 보여줌.
5.5 Ablation Study
- PersonaExt 데이터셋에서 ablation study를 수행
- Meta-V AE 샘플러와 여러 기준 샘플러 비교
- 모든 샘플러는 동일한 랜덤 시드 및 CSC 손실 사용
- 세 가지 보지 못한 레이블 설정으로 실행 후 평균 정확도 보고
- 결과:
- Meta-V AE 샘플러가 평균 2.66% 더 높은 성능 기록
- 가장 강력한 기준선인 GenTaxo를 1.37% 초과
- Meta-V AE 샘플러의 우수한 성능은 다양한 관계의 분포에 대한 좋은 근사 덕분
- HNS를 제거했을 때 성능이 크게 감소, 그러나 여전히 일부 기준 샘플러보다 우수
- 나쁜 샘플러는 개선보다는 성능하락을 초래할 수 있음
- 따라서 샘플러가 하드 네거티브 샘플을 정확히 식별하는 것이 대조 학습의 성공에 필수적임
5.6 Revisiting Meta-V AE Sampler with CSC
- KL 발산 증가
- 합성 데이터셋에서 미세 조정 시 양수 샘플과 음수 샘플 간의 KL 발산이 증가함.
- 이는 CSC 손실을 공식화하는 과정에서 KL 발산을 사용했기 때문임.
- 샘플 분포 분석
- 미세 조정 전후의 양수 및 음수 샘플 분포를 연구함 (Fig. 2 참조).
- PCA(주성분 분석)를 통해 샘플 표현을 분해하여 scatter plot 생성.
- 그룹 분포
- 그룹 1 (Fig. 2 (b)): 다양한 관계 유형에 따라 양수 샘플과 음수 샘플의 분포를 보여줌.
- 그룹 2 (Fig. 2 (c)): 유사한 방식으로 다른 관계 유형에서 샘플 분포 확인.
- 그룹 3 (Fig. 2 (d)): 모든 그룹에서 샘플들이 긍정적 샘플 주위에 밀집해 있음.
- 결론
- Meta-V AE 샘플러는 의미적으로 가장 가까운 어려운 음수 샘플을 찾을 수 있음.
- CSC 손실은 긍정적 및 부정적 샘플이 의미적 벡터 공간에서 퍼지도록 함.
- 이는 모델이 샘플들을 더 효과적으로 재배치할 수 있게 함.
5.7 Case Study
- 사례 설명:
- 세 가지 PAED 사례가 그림 3에 제시됨.
- 장점과 단점:
- 사례 1과 3에서 RP 방법으로 추출된 객체들이 관계와 잘 맞지 않음.
- RP는 사실과 반대되는 잘못된 관계를 추출 (사례 1과 2)함.
- 강점:
- 우리의 추출기는 어려운 부정 샘플을 다루는 데 유리하다는 강한 성능을 보임.
- 구체성 문제:
- 사례 2의 객체 ‘all’은 구체적이지 않음.
- 주석 일관성 문제:
- Wu et al. (2020)의 사례 1과 3의 관계 및 객체 주석이 발화와 일치하지 않음.
- 추출 결과 비교:
- 사례 1:
- RP: I, like_general, blond
- OURS: I, dislike_general, beach
- Wu et al.: I, employed_by_general, arena
- PersonaExt: I, dislike_general, beach
- 사례 2:
- RP: I, dislike_general, cars
- OURS: I, like_general, cars
- Wu et al.: I, dislike, all
- PersonaExt: I, like_general, cars
- 사례 3:
- RP: I, like_general, exotic
- OURS: I, favorite_place, jamaica
- Wu et al.: I, like_activity, traveling
- PersonaExt: I, favorite_place, jamaica
- 사례 1:
5.8 Exploration of Experimental Settings
- 프레임워크의 강건성 탐색
- PAE의 디코딩 전략과 PAG에서 생성된 샘플의 데이터 크기가 PersonaExt 데이터셋에 미치는 영향을 분석.
- 디코딩 전략 비교
- Table 5에서 세 가지 보이지 않는 라벨 설정을 사용하여 정확도 변화 비교.
- 기본 탐욕적(greedy) 전략과 다른 디코딩 전략 비교.
- top-k 랜덤 샘플링이 성능을 약화시킴. (Fan et al., 2018)
- 개방형 생성에서 효과적이지만, PAED에는 부적합.
- TSD 개선 효과
- TSD가 PAED 작업에서 단일 트리플 추출의 정확도를 개선.
- RP의 성능 개선을 위해 제안됨.
- 비록 정확도가 증가하였으나, 계산 시간이 상당히 증가함.
- TSD가 PAED 작업에서 단일 트리플 추출의 정확도를 개선.
- 실험 결과
- RelationExt 데이터셋에서 10개의 보이지 않는 라벨로 실험 진행.
- 합성 데이터의 크기를 250에서 550으로 변화시키며 강건성 확인.
- 합성 샘플 수를 1에서 100으로 증가시킬 때, 정확도에 뚜렷한 개선 관찰.
- 최적 성능은 450개의 합성 샘플에서 달성.
- 합성 데이터 크기의 추가 증가는 점진적인 정확도 감소로 이어짐.
- Table 5의 결과 요약
- top-k 샘플링 사용 시 정확도 변화:
- n=5: -3.66
- n=10: -2.77
- n=15: -1.66
- TSD 사용 시 정확도 변화:
- n=5: 0.54
- n=10: 0.60
- n=15: 0.07
- top-k 샘플링 사용 시 정확도 변화:
- Figure 4 설명
- 합성 샘플 수에 따른 PAED의 정확도 변화를 보여줌.
6 Conclusion
-
연구 목적: 본 연구에서는 대화에서 인물 속성 추출(PAED)을 위한 일반화된 제로샷 학습을 조사함.
- 데이터셋 구축:
- PersonaChat와 Dialogue NLI를 기반으로 PersonaExt를 구축.
- 반자동 주석 프레임워크를 통해 일관되고 구체적인 트리플 레이블 생성.
- 모델 제안:
- 효과적이고 해석 가능한 Meta-V AE 샘플러와 CSC 손실을 사용하여 어려운 네거티브 샘플 처리.
- 이를 PAE에 통합하여 일반화된 제로샷 PAED 작업 수행.
- 실험 결과:
- 제안한 프레임워크가 가장 강력한 기준선보다 훨씬 우수함을 입증.
- 시각화된 정량적 분석을 통해 Meta-V AE 샘플러 및 CSC의 작동 메커니즘을 상세히 설명.
- 제한 사항:
- 이론적 지원 부족으로 인해 현재 단계의 암묵적 인물 속성에 대한 주석 체계 formalization 어려움.
- 예를 들어, 문장 “매일, 나는 개인적으로 내 개를 산책시키고 이웃의 털복숭이 친구들을 가끔 산책시키는 것을 도와준다”에서 암묵적인 트리플 (I, like_animal, dogs) 추출 어려움.
- PersonaExt는 암묵적이거나 여러 인물 속성 트리플 추출 작업과 호환되지 않음.
- 현재 발화의 맥락에서 보완 정보를 활용하지 않음.
- 모델의 어려움:
- 여러 대화 발화가 있는 입력의 경우, 대명사 및 여러 발화자가 존재하여 추출된 인물 트리플을 특정 화자와 일치시키기 어려움.
- 감사의 말씀:
- 이 연구는 과학 기술 연구 기관(A*STAR)의 AME 프로그램 기금 지원을 받음 (프로젝트 #A18A2b0046).
- 윤리적 고지:
- 인간 주석은 공격적인 콘텐츠가 없고 개인 식별 정보를 수집하지 않도록 최대한 주의를 기울여 수행됨.
- 주석자에게 주석의 목적과 적절한 사용에 대한 포괄적 설명 제공, informed consent 확보.
Comments