[논문리뷰] Knowledge Graph Augmented Network Towards Multiview Representation Learning for Aspect-based Sentiment Analysis (IEEE)
이 논문은 지식 그래프를 활용한 네트워크(KGAN)를 제안하여 세 가지 관점(맥락, 구문 및 지식)에서 감정 특성을 학습하고, 이를 통해 세분화된 감정 분석 문제인 Aspect-Based Sentiment Analysis(ABSA)의 성능을 향상시키는 방법을 다룹니다. KGAN은 다양한 정보의 상호 보완성을 활용하여 높은 성능을 기록하며, 여러 벤치마크에서 최첨단 결과를 얻었습니다.
1 Introduction
- DNN 기반 ABSA 모델은 훈련 데이터에서 학습한 표현을 활용하여 핸드크래프트 특징 기반 모델보다 뛰어난 성능을 보임.
- 모델을 두 가지 범주로 나눌 수 있음:
- 맥락 기반 방법
- CNN 및 LSTM 사용하여 맥락에서 개별적인 특징 표현 추출.
- 예를 들어, TD-LSTM은 순차적 패턴 학습 능력 덕분에 특정 주제 정보를 포착.
- Wang et al.는 주제와 의견 단어 간의 잠재적 상관관계를 탐구하기 위해 TD-LSTM 개선.
- Ma et al.는 두 개의 LSTM을 사용하여 맥락과 주제 용어를 인코딩하고, 상호주의적 주의 메커니즘을 통해 더 관련성 높은 정보 추출.
- 구조 기반 방법
- 복잡성과 비효율성을 해결하기 위해 많은 연구가 CNN을 사용하여 구성 구조와 n-그램 특징 포착.
- Xue와 Li는 게이트를 사용한 합성곱 네트워크를 제안하여 컨텍스트 특징 추출.
- Huang와 Carley는 CNN에 주제 정보를 통합하는 두 개의 신경 단위를 도입.
- Li et al.은 시퀀스 정보 손실 문제를 해결하기 위해 주제 특화 변환 성분을 제안.
- 맥락 기반 방법
- 구문 기반 모델에서는 문장의 구문 구조를 활용하여 주제와 관련된 의견 단어 간의 관계를 효과적으로 수립하는 데 초점을 맞춤.
- Zhang et al.은 의존 트리를 사용하여 문장을 나타내고, GCN을 통해 구문 정보를 모델링.
- Wang et al.은 새로운 주제 지향 의존 트리 구조를 소개하고 관계형 그래프 주의 네트워크를 사용하여 트리 구조 인코딩.
- Pang et al.은 명확한 구조가 없는 문장에서 구문 및 의미 정보를 최적으로 융합하기 위해 다중 채널 GCN을 도입.
- Li et al.은 구문 구조와 의미적 상관관계의 상호 보완성을 활용하기 위해 SemGCN과 SynGCN 모듈을 사용하는 이중 GCN 모델 제안.
2 Related Works
- 언어 지식과 상식의 통합이 자연어 이해에 유익함을 보여주며, 이는 여러 분야에서 활발하게 연구되고 있음.
- ERNIE 모델: 대규모 말뭉치와 지식 그래프를 활용하여 지식 기반의 사전 훈련 언어 모델을 구축. 다양한 지식 기반 하위 작업에서 우수한 성능을 달성.
- ABSA(Aspect-Based Sentiment Analysis) 작업에서 지식 탐색 부족 문제 존재:
- 기존 데이터셋에 지식이 명시적으로 표현되지 않음.
- 최근 연구들은 외부 지식을 통합하여 이 문제를 해결하려고 시도함.
- Wu et al.의 연구: 감정 및 구조 지식을 통합한 통일 모델 제안.
- Zhou et al.: 구문 정보와 외부 상식 지식을 공동 인코딩.
- Xing et al.: 감정 도메인 지식으로 향상된 BERT 모델 제안.
- 본 연구: ABSA를 위한 외부 지식을 제공하기 위해 지식 그래프 도입.
- 기존의 AR-BERT 모델과 유사하나, 더 간단하고 효율적인 지식 그래프 모델링 전략을 사용함.
- 외부 지식을 맥락 및 구문 정보와 종합적으로 결합하여 풍부한 특성 표현을 얻고 감정 분석 성능을 향상시킴.
2.1 Aspect-based Sentiment Analysis
- 정의:
- ABSA(Aspect-based Sentiment Analysis)의 목표는 문장 S와 특정 측면 T에 대한 감정 극성을 예측하는 것.
- 이때 S는 m개의 단어로 구성된 문장이며, T는 S의 subsequence n개로 이루어진 집합이다.
- 감정 극성 y는 {0, 1, 2}로 긍정, 중립, 부정을 각각 나타낸다.
- 모델 개요(KGAN):
- KGAN은 세 가지 가지(context, syntax, knowledge)로 구성되어 감정 정보의 다양한 특성을 학습한다.
- Contextual 및 Syntactic Branches: 문장의 맥락적 및 구문적 특성을 추출하고, 상관성을 형성.
- Knowledge Branch: 외부 지식을 통합하여 의미적 특징을 강화.
- 지식 그래프를 분산 표현으로 변환한 후, 소프트 어텐션 메커니즘으로 특정 측면의 지식을 학습.
- 다중 뷰 표현 학습:
- Context-based Representations:
- 사전 훈련된 워드 임베딩을 사용하여 각 단어를 저차원 벡터 공간으로 Embedding.
- 문장 S와 측면 T에 워드 임베딩을 생성하고, BiLSTM을 사용해 통계적 의존성을 포착.
- 수식: \(h^s_i = [\overrightarrow{LSTM}(x^s_i), \overleftarrow{LSTM}(x^s_i)]\) for S와 \(h^t_j = [\overrightarrow{LSTM}(x^t_j), \overleftarrow{LSTM}(x^t_j)]\) for T.
- Syntax-based Representations:
- 구문 정보를 활용하여 문장의 구문 인식을 촉진. GCN을 사용해 문장의 구문적 특성 추출.
- adjacency matrix A를 기반으로 GCN을 통해 구문 정보를 인코딩.
- 수식: \(H^{(l+1)}_s = \mathrm{ReLU}(A H^{(l)}_s W^{(l)}(D + 1) + B^{(l)})\).
- Knowledge-based Representations:
- WordNet 등을 사용하여 external knowledge로 의미적 특징을 강화.
- 지식 그래프의 엔티티를 “entity-relation-entity” 삼중 구조로 모델링하고, KGE를 통해 지식 임베딩 학습.
- 얻은 지식을 S와 T를 표현하는 데 결합하고, 소프트 어텐션 메커니즘을 활용하여 측면 특정 지식 표현 Rk를 캡처.
- Context-based Representations:
- Hierarchical Fusion Module:
- 서로 다른 뷰에서 얻은 표현들을 효과적으로 융합하여 성능을 향상.
- 지역적 fusion과 전역적 fusion을 사용하여 각 표현의 보완성을 극대화.
이러한 반복 과정을 통해 KGAN은 다중 관점에서 감정 정보를 포착하여 더 정교한 감정 분석을 수행할 수 있다.
2.2 Incorporating External Knowledge
- 외부 지식 통합의 중요성:
- 모델의 성능 향상에 기여
- 특정 도메인 지식 활용 가능
- 외부 지식의 형태:
- 데이터베이스: 구조화된 정보
- 문서: 비구조화된 정보
- 통합 방법:
- 지식 그래프 활용
- 특정 쿼리에 대한 외부 정보 검색
- 데이터 증강 과정에 외부 데이터 포함
- 도전 과제:
- 외부 지식을 어떻게 효과적으로 연관할 것인가
- 새로운 지식의 업데이트 및 관리 문제
- 수식 예시:
- 외부 정보가 모델에 미치는 영향은 \(E(X) = \mathbb{E}[Y \mid X]\)로 표현 가능
- 지식 확대를 위한 목표는 \(G(\mathcal{K}) = \sum_{i=1}^{n} P(y_i\vert K)\)으로 나타낼 수 있음, 여기서 $K$는 지식 집합을 의미.
3 Knowledge Graph Augmented Network
- 최근 연구 [38], [39]는 상황 인식 표현이 언어 이해 능력을 향상시킬 수 있음을 보여줌.
- 주어진 문장-측면 쌍 {S, T}에 대해:
- 각 단어를 표현하기 위해 사전 훈련된 단어 임베딩 모델 사용.
- 각 단어 $w_i$를 임베딩 행렬 $E \in \mathbb{R}^{\vert V\vert \times d_w}$로 저차원 벡터 공간에 임베드.
- 여기서 $\vert V\vert $는 어휘의 크기, $d_w$는 단어 임베딩의 차원.
- 임베딩 행렬은 일반적으로 GloVe와 같은 사전 훈련된 모델의 임베딩으로 초기화됨.
- BERT [41] 및 RoBERTa [42]와 같은 대규모 사전 훈련 언어 모델의 성공에 영감을 받아,
- 이 모델들을 임베딩 추출기로 사용 가능.
- S와 T는 BERT/RoBERTa에 입력되어, 최종적으로 매핑된 출력 임베딩인 토큰 임베딩을 얻음.
- 문맥 단어와 측면 간의 상대적 위치 정보의 이점을 고려하여,
- 단어 임베딩에 상대 위치 특성을 인코딩.
- 결과적으로 문장 S와 측면 T는 대응하는 단어 임베딩 $X_s = {x_s^1, x_s^2, …, x_s^m}$ 및 $X_t = {x_t^1, x_t^2, …, x_t^n}$으로 변환됨.
- 단어 임베딩을 기반으로 두 개의 양방향 LSTM(BiLSTM)을 사용하여 문장과 측면의 통계적 의존성을 캡처:
- LSTM의 전방 연산을 $−−−−→LSTM$으로, 후방 연산을 $←−−−−LSTM$으로 명시.
- 숨겨진 상태 벡터는 다음과 같이 계산됨:
- $h_s^i = [−−−−→LSTM(x_s^i), ←−−−−LSTM(x_s^i)], i \in {1, m}$
- $h_t^j = [−−−−→LSTM(x_t^j), ←−−−−LSTM(x_t^j)], j \in {1, n}$
- 결과적으로, BiLSTM의 숨겨진 출력을 통해 문장 Hs를 얻음:
- $H_s = {h_s^1, h_s^2, …, h_s^m}$ (문맥 정보 보존).
- 두 개의 주의(attention) 메커니즘을 도입하여 측면 특화된 문맥 특성 캡처:
- 자기 주의 메커니즘을 사용하여 문맥의 장거리 의존성을 학습.
- 다른 소프트 주의 메커니즘을 통해 각 단어 S가 T에 대해 가중치를 할당하여,
- 측면 특화된 문맥 표현, 즉 $R_c$를 얻음.
3.1 Problem Formulation
- 주제는 구문 정보를 활용하여 모델이 구문 인식 표현인 $R_s$를 학습하도록 유도함
- 구문 인식 표현은 여러 NLP 작업에 유용함 (예: 기계 번역)
- 기본적으로 동일한 사전 훈련된 단어 임베딩 모델과 BiLSTM을 사용하여 숨은 상태 벡터 $H_s$를 얻음
- 단어 임베딩과 BiLSTM의 매개변수를 공유하여 계산량을 줄이고 모델 크기를 경량화함
- 즉, $H_s = H_c^s$ 를 사용함
- 두 층의 GCN 모듈을 사용하여 문장의 구문 특징을 추출함
- 구문 종속 트리를 생성하고 인접 행렬 $A$를 얻음
- 각 단어가 자식 노드와 자신에 인접하며, 인접 노드 값은 1로 설정됨
- GCN은 구문 정보를 $G$에서 $H_s$로 인코딩하는 데 사용됨
- 두 층 GCN이 하나의 층 GCN보다 성능이 좋음
- 더 많은 층은 성능을 개선하지 않음
- 수식:
\(H^{(l+1)}_s = \text{ReLU}(A H^{(l)}_s W^{(l)} (D + 1) + B^{(l)}), \ l \in \{0, 1\}\)
- 여기서 $A$는 인접 행렬, $D$는 $A$의 차수 행렬, $W^{(l)}$와 $B^{(l)}$는 (l+1)-번째 GCN 층의 가중치 및 바이어스 행렬임
- $H^{(0)}_s$는 초기 숨은 상태 벡터이고, $H^{(2)}_s$는 GCN의 최종 출력임
- 그래프 기반 주의 모듈을 통해 특정 측면의 $R_s$를 학습함
- 주의 모듈은 $H^{(2)}_s$에서 측면 마스킹을 수행하여 비측면 단어를 0으로 마스킹함
- 점곱 주의 메커니즘을 사용하여 관련 측면 특성이 초기 $H_s$에서 정제된 측면 특성 $H^{(2)}_s$로 이동하게 함
3.2 Overview of the KGAN Model
- 외부 지식 통합:
- WordNet 2의 지식 그래프를 외부 지식 기반으로 사용
- 166,000개 이상의 단어 형태 및 의미 쌍 포함
- 동의어 집합을 사용하여 개념 표현
- 개념 학습:
- 인간 언어 습득처럼, 기본 개념에서 시작하여 점차 추상적인 개념으로 발전
- 희귀한 어려운 단어는 관련된 일반 단어를 통해 이해 가능
- WordNet 활용:
- 예: “Tinca”는 “어류 속”의 하위 개념으로, “어류” 또는 “식품”과 관련 지어 이해 용이
- Zhou et al. [17]과는 달리 지식 그래프 데이터 처리에 간단하고 효율적인 전략 도입
- 지식 그래프 임베딩:
- 지식 그래프 내의 의미적 관계를 분산 표현으로 모델링
- “entity-relation-entity” 형태의 그래프 데이터로부터 개체 임베딩 훈련
- 오픈 KGE 툴킷 OpenKE 사용
- 임베딩 초기화:
- 훈련된 지식 임베딩으로 새로운 임베딩 행렬 초기화
- S와 T 단어를 지식 임베딩 행렬로 표현
- 매핑된 지식 임베딩은 숨겨진 상태 벡터 Hs와 결합
- 소프트 어텐션 메커니즘:
- S와 T의 각 단어의 의미 관련성 계산하여 중요한 의미적 특성 캡처
- 이러한 표현은 특정 지식 표현 Rk로 나타냄
- 사례 설명:
- 예: 문장 “Try the local food, especially the decent Tinca.”와 “food”라는 측면 단어
- “Tinca”는 “food”의 하위 개념이며, 서로 인접하여 KGAN이 관련성 쉽게 캡처 가능
- 브랜치 훈련:
- 입력 문장-측면 쌍 {S, T}에 대해, 문맥 및 구문 브랜치가 같은 임베딩 행렬 사용
- 지식 브랜치는 다른 지식 임베딩 행렬 사용
- 세 가지 브랜치의 병렬 처리를 통해 KGAN은 다양한 관점에서 측면 특정 정보를 캡처 가능
3.3 Multi-View Representation Learning
-
다양한 관점에서 얻은 표현 {Rc, Rs, Rk}는 상호 보완성이 부족하여 단순한 융합으로는 효과를 극대화하기 어려움.
-
이를 해결하기 위해 계층적 융합 모듈을 채택하여 로컬에서 글로벌로 점진적으로 융합하여 성능 향상.
- 로컬 융합 절차:
- 세 개의 특징 표현 중 두 개를 이어붙여서 조합:
- \([ Rc; Rs]\), \([ Rc; Rk]\), \([ Rs; Rk]\)
- 융합된 표현을 각각 별도의 완전 연결층에 통과시켜 예측된 감정 특징 $Rcs$, $Rck$, $Rsk$를 얻음.
- 완전 연결층의 매개변수는 공유하지 않음.
- 세 개의 특징 표현 중 두 개를 이어붙여서 조합:
- 글로벌 융합:
- 얻은 감정 특징을 열 방향으로 조합: \([ Rcs, Rck, Rsk ]^T\)
- 3x3 컨볼루션 층에 입력하여 특징을 선택적으로 통합.
-
이러한 로컬 및 글로벌 융합 절차를 통해 각 특징 표현이 단계적으로 서로에게 이익을 줌.
-
외부 지식은 문맥 및 구문 정보와 더 나은 통합되어 더욱 유망한 성능 달성 가능.
- 이 과정은 이질적인 특징(텍스트와 그래프)을 융합하고, 지식 임베딩의 희소성 및 부정확성의 부정적 영향을 줄이는 데 도움을 줌.
3.3.1 Context-based Representations
- 사용된 데이터셋:
- Laptop14, Restaurant14, Twitter, Restaurant15, Restaurant16
- Laptop14 및 Restaurant14: SemEval2014 ABSA 챌린지
- Restaurant15 및 Restaurant16: SemEval2015 및 SemEval2016 챌린지
- Twitter: 트윗 수집
- 데이터 정제:
- 충돌하는 감성 다수 제거
- 최종 통계는 표 2에서 확인 가능
- 성능 평가 지표:
- 정확도(Accuracy, “Acc”) 및 매크로 F1 점수(Macro-F1, “F1”)
- 모델 및 하이퍼파라미터 설정:
- KGAN의 효과성을 검증하기 위해 세 가지 사전 훈련 모델 사용:
- GloVe 5 (300 차원)
- BERT (12층, 768 차원)
- RoBERTa (12층, 768 차원)
- BERT/RoBERTa의 최대 시퀀스 길이는 512
- 지식 임베딩은 훈련 중 고정
- 학습률:
- GloVe 기반 KGAN: $1 \times 10^{-3}$
- KGAN-BERT: $5 \times 10^{-5}$
- KGAN-RoBERTa: $3 \times 10^{-5}$
- 배치 크기: 대부분의 데이터셋에 대해 32, Restaurant14에 대해서는 64
- 드롭아웃 비율: 0.5
- KGAN의 효과성을 검증하기 위해 세 가지 사전 훈련 모델 사용:
- 비교 모델:
- 컨텍스트 기반 방법:
- ATAE-LSTM: LSTM에서의 임베딩 및 주의 메커니즘 활용
- RAM: 여러 주의 및 메모리 네트워크 이용
- TNet-AS: CNN 사용으로 대상 정보 통합
- MGAN: 거친 수준의 분류 작업을 통해 세밀한 분류 작업 향상
- MCRF-SA: 복수의 CRF를 사용하여 의견 범위 추출
- 구문 기반 방법:
- ASGCN & ASCNN: 의존 구조 표현 및 GCN 사용
- R-GAT: 의존 트리 구조 재구성
- DGEDT: 트랜스포머 도입
- RGAT: 관계 그래프 주의 네트워크 제안
- 외부 지식 기반 방법:
- Sentic-LSTM: 상식 지식 활용
- MTKEN: 다양한 지식 출처 통합
- SK-GCN: 구문 및 지식 모델링
- Sentic GCN: SenticNet의 지식 통합
- 컨텍스트 기반 방법:
- KGAN의 성능:
- KGAN은 BERT 및 RoBERTa 기반의 강력한 방법들과 비교됨
- Restaurant15 및 Restaurant16 데이터셋에서 RoBERTa 기반 모델 활용 빈도가 낮음
3.3.2 Syntax-based Representations
- 경쟁 모델 결과:
- KGAN 모델이 GloVe 설정에서 대부분 데이터셋에서 다른 최신 방법들을 초월함.
- 데이터셋별 성능:
- Laptop14 데이터셋에서 KGAN이 DualGCN보다 정확도 0.43%, macro-F1 score 0.47% 향상 (Acc: 78.91%; F1: 75.21%).
- Restaurant14 데이터셋에서 KGAN의 성능이 상대적으로 낮지만 (Acc: 84.46%; F1: 77.47%), 최소 0.19% 정확도를 초과하여 모든 모델을 초월함.
- 다중 뷰 표현 학습의 우수성:
- KGAN은 외부 지식을 단일 맥락 또는 구문 정보와 결합하는 방법들보다 우수함.
- 맥락 기반 vs. 구문 기반 모델:
- Restaurant14 벤치마크에서 맥락 기반 모델의 평균 성능이 구문 기반 모델보다 저조함.
- Restaurant14에서 다면적 인스턴스 비율(26.58%)이 Laptop14(20.05%)보다 높아 syntactic dependent trees의 비비선형 모델링 능력이 효과적으로 작용함.
- 데이터셋별 모델 비교:
- Twitter 데이터셋에서 CNN 기반 모델(TNet-AS)이 LSTM 기반 모델(ATAE-LSTM, RAM)을 크게 초월함.
- Twitter 데이터셋은 비문법적이고 노이즈가 많아 LSTM의 효과성을 저해함.
- 프리트레인 언어 모델과의 보완성:
- KGAN이 BERT 및 RoBERTa와 함께 사용할 때 일관된 개선을 나타냄.
- RoBERTa에서 KGAN은 모든 벤치마크에서 새로운 SOTA 기록을 달성.
- BERT에서도 KGAN은 대부분의 최신 모델을 초월함.
이러한 결과들은 KGAN의 효과성과 우수성을 입증함.
3.3.3 Knowledge-based Representations
- 다양한 표현 조합의 효과
- 여러 표현 조합({Rc, Rs, Rk})을 사용한 결과를 제시.
- 모든 표현이 KGAN에 긍정적인 영향을 미침.
- Rk가 Rc와 Rs보다 성능이 우수함.
- 지식 임베딩(Rk)을 통해 비지식 표현 “[Rc, Rs]”에서 평균 +1.08% 성능 향상 확인.
- 다양한 융합 전략의 효과
- 제안된 계층적 융합 모듈의 효과를 검증하기 위해 다양한 정보 융합 접근법과 비교.
- 일반적인 접근법:
- CONCAT: 직접적인 벡터 결합
- SUM: 각기 다른 Fully Connected Layer에서 요소-wise 합
- ATT: 다중 시각 주의 메커니즘 사용
- VOTING: 각 뷰에 대해 개별 분류기 훈련 후 투표
- KGAN의 계층적 융합 모듈이 다른 접근법에 비해 명백히 우수함을 입증.
- 지식 그래프 임베딩의 다양한 접근법 효과
- KGE의 다양한 접근법(TransE, ComplEx, ANALOGY, DistMult) 실험.
- TransE는 성능이 좋지 않음. 대신, 관계적 의미를 잘 캡처하는 방법들이 성능이 뛰어남.
- 대규모 고품질 지식 그래프(Wikidata)의 사용이 KGAN 성능 향상에 기여.
- 결론
- KGAN은 다양한 관점에서 감정 기능을 캡처하여 외부 지식을 통합한 모델.
- 제안된 방법은 효율성과 성능 간의 좋은 균형을 이루며, 약간의 노이즈에도 강건성을 보여줌.
- 향후 다른 언어 이해 작업에서 KGAN의 다중 시각 표현 접근법 검증 예정.
3.4 Hierarchical Fusion Module
- 제안된 계층적 융합 모듈의 효과성을 검증하기 위해 여러 정보 융합 접근 방식과 비교:
- C ONCAT: 다중 뷰 표현을 행으로 직접 연결하고 완전 연결층을 통해 융합.
- SUM: 표현을 세 개의 개별 완전 연결층에 공급하고 원소-wise 합산을 통해 융합.
- A TT: 다중 뷰 주의 메커니즘을 사용하여 다중 뷰 표현을 융합.
- 표현 {Rc, Rs, Rk}를 연결하여 주의 메커니즘의 키와 값으로 사용.
- 각각 Rc, Rs, Rk를 쿼리로 사용하여 주의 점수를 계산.
- 여러 뷰 점수를 합산하여 소프트맥스 층에 공급하고 최종 주의 점수를 계산 후 값에 곱함.
- 융합된 표현은 MLP 층에 공급되어 감정 예측을 수행.
- V OTING: 투표 메커니즘을 통해 표현을 융합.
- 각 뷰 표현에 대해 개별 분류기를 학습하고 소프트 투표를 통해 최종 예측 결정.
- O URS: 제안된 계층적 융합 모듈을 사용하여 표현을 융합.
- 결과:
- 그림 6에 나타난 바와 같이, 제안된 계층적 융합 모듈은 정확도 및 매크로-F1 지표 모두에서 다른 융합 전략보다 유의미하고 일관되게 우수한 성능을 나타냄.
- Restaurant14 데이터셋에서 매크로-F1 점수가 2.16% 향상되었고, Laptop14에서 정확도가 최소 0.63% 증가함.
- 직접적으로 다중 뷰 표현을 융합하는 방법(C O N C A T 및 S U M)이 최적이 아님을 입증.
- 계층적 융합 모듈은 지역-글로벌 방식으로 다중 뷰 표현을 융합하며, 이로 인해 상호 보완성을 최대한 활용함.
- Twitter 데이터셋에서 V O T I N G보다 약간 성능이 우수함 (Acc: 78.13%; F1: 77.10%).
- Twitter의 드문 및 문법적이지 않은 단어가 KGE의 적절한 커버를 방해해 성능 저하의 원인으로 판단됨.
- 더 나은 KGE(예: 더 큰 지식 그래프에서 사전 학습된 경우)를 사용할 경우 성능 저하 문제는 완화될 수 있음.
4 Experiments
- 여러 간단한 지식 그래프 임베딩(KGE) 접근 방식을 사용하여 지식 그래프를 연속 임베딩으로 모델링
- 실험 목적: a) 다양한 KGE 접근 방식 및 b) 다양한 지식 그래프의 성능 분석
a) KGE 접근 방식
- 사용한 KGE 접근 방식:
- TransE: 번역 기반 방법
- ComplEx: 의미적 매칭 방법
- ANALOGY: 의미적 매칭 방법
- DistMult: 의미적 매칭 방법
- 실험 결과 (표 4 (a)):
- TransE는 다른 의미적 매칭 방법들보다 성능이 낮음
- TransE는 관계 정보에만 집중하여, KGAN의 의미적 특성 강화 실패
- RELATIONAL semantics를 포착하는 모델들이 더 나은 성능, 특히 ANALOGY (정확도: 78.91%; F1: 75.21%)에서 성과
- DistMult의 성능 불안정: Laptop14에서 최적 성능 미달
- 그 이유: DistMult가 노트북 도메인의 의미적 관계 모델링에 부족
b) 지식 그래프
- 더 큰 지식 그래프: Wikidata (2천만 개 이상의 엔티티와 594개의 관계 포함)
- Wikidata 임베딩: OpenKE 툴킷으로 사전훈련된 임베딩 사용
- 두 가지 차원(50, 100)의 TransE 기반 임베딩 제공
- 공정한 비교를 위해 WordNet 임베딩도 TransE 방법으로 훈련하고, 동일한 차원 설정
- 실험 결과 (표 4 (b)):
- 더 큰 고품질 지식 그래프 사용 시 KGAN의 성능 개선
- Twitter에서 정확도는 1.42%, 매크로 F1 점수는 1.92% 상승
- Wikidata 임베딩 성능이 Laptop14 및 Restaurant14에서 Analogy 및 DistMult보다 약간 낮음
- 결론: 대규모 지식 그래프와 강력한 KGE 방법으로 훈련된 지식 임베딩이 KGAN의 성능을 더 향상시킬 수 있음.
4.1 Datasets and Experimental Settings
- 여러 평가된 데이터셋에서 사례를 선택하여 심층 사례 연구를 수행.
- 실험 세부 사항:
- 대규모 지식 그래프에서 임베딩을 사전 훈련하는 것은 본 연구의 초점이 아니며, 시간 소모가 크므로 추가 실험을 진행하지 않음.
- 성과 비교에 대한 표:
- 표 5에는 중괄호[]로 감싸인 단어가 측면 용어를 나타냄.
- p, n, o는 각각 긍정, 부정, 중립을 의미.
- 다섯 가지 모델의 성과 제시.
- RAM 및 TNet-AS와 같은 맥락 기반 모델이 R-GAT와 같은 구문 기반 방법보다 성능이 낮음.
- KGAN은 대다수의 사례에서 정확한 예측을 보여줌.
- 복잡하고 비공식적인 문장에서 KGAN의 뛰어난 성능이 관찰됨.
- 특정 사례 분석:
- 첫 번째 사례: “staff”라는 측면에 대한 두 가지 표현이 의견 단어 “bit more friendly”에 집중하여 올바른 예측 도움.
- 두 번째 사례: “orange donut”가 지식 그래프에서 “had”와 더 가까워, 중요 단어 추출 용이.
- KGAN의 훈련 효율성 분석:
- 효율성 비교 표 6에서 KGE 기반 및 GCN 기반 KGAN의 성능 비교.
- 다양한 GCN 기반 구현(K-KGAN 및 SK-KGAN) 포함.
- KGAN(전체)은 평균적으로 더 높은 정확도 및 F1 점수를 기록함.
4.2 Main Results and Analysis
- KGE 기반 모델과 서브그래프 기반 모델 비교 (4.5.1)
- 서브그래프 기반 방법은 특정 측면 서브그래프를 구축하기 위한 추가 과정이 필요하며, 이는 과도한 계산을 초래함.
- KGE(Knowledge Graph Embedding)를 이용하여 KGAN의 학습 효율성과 성능을 비교.
- 세 가지 구현 방법:
- K-KGAN: KGAN의 지식 브랜치에서 KGE 모듈을 두 개의 GCN으로 대체.
- SK-KGAN: 문법적 종속 그래프 및 측면 특정 지식 그래프를 통합하여 GCN 모듈로 공동 모델링.
- AR-KGAN: GraphSAGE 알고리즘을 사용하여 서브그래프 기반의 측면 임베딩 학습.
- KGE 기반 KGAN이 데이터 처리 시간(“DP. (s)”)과 계산량(“GFLOPs”)이 다른 모델보다 적고 더 효율적임.
- KGE 및 서브그래프 기반 방법이 외부 지식을 통합하여 향상된 성능을 보임. KGE 기반 KGAN이 모든 데이터셋에서 최고의 성능 달성.
- 모델 지연 시간 및 모델 크기 (4.5.2)
- 외부 지식을 도입함으로써 지연 시간과 모델 크기가 증가함.
- KGAN은 이전 모델(more complex than ATAE-LSTM)에 비해 성능이 획기적으로 개선되었으며, 지연 시간도 비슷하거나 더 좋음.
- KGAN은 매개변수 공유 메커니즘을 통해 효율성과 성능의 균형을 잘 맞추고 있음.
- KGAN의 견고성 (4.5.3)
- 외부 지식이 정규화 역할을 할 수 있는지에 대한 의문을 조사하기 위해, 노이즈 비율을 달리하여 KGAN의 학습을 평가.
- KGAN은 1%, 2%, 5%의 경미한 노이즈를 견딜 수 있는 반면, 20%의 노이즈가 추가되면 성능 저하.
- 결론적으로, KGAN의 다중 시각 지식 표현 방식은 약한 노이즈에 대해 견고하며, 정규화 효과는 없음.
- 결론
- KGAN은 외부 지식을 통합하여 감정 정보를 증대시키는 새로운 네트워크 모델.
- 다양한 측면(문맥, 문법, 지식)에서 감정 특징을 포착하고, 다중 특징 표현을 계층적으로 융합.
- 실험 결과 KGAN이 성능과 효율성을 동시에 증명하며, 경미한 노이즈 공격에 대해 견고함을 보임.
- 향후 연구에서는 KGAN을 다른 언어 이해 과제에 적용할 계획.
4.3 Ablation Study
- 외부 지식을 도입하는 것은 지연 시간과 모델 크기를 증가시킴.
- KGAN 모델과 기존 모델 간의 효율성과 성능 간의 균형을 조사.
- 실험은 Nvidia GTX-1660 SUPER에서 수행됨.
- KGAN은 ATAE-LSTM보다 복잡하지만 평균 +10.87%의 매크로 F1 점수를 보임.
- R-GAT 및 DM-GCN와 비교하여 KGAN은 더 나은 성능을 유지하며 유사한 지연 시간을 가짐.
- 이는 복잡한 모듈을 사용한 다른 모델들과 달리 KGAN이 원래 BiLSTM을 특징 추출기로 사용하고 매개변수를 세 개의 가지에 공유하여 모델 파라미터를 대폭 줄였기 때문.
-
결론: KGAN은 매개변수 공유 메커니즘 덕분에 효율성과 성능 간의 좋은 트레이드오프를 확립함.
- KGAN의 견고성 실험:
- 외부 지식이 정규화 역할을 하는지 의문을 제기하는 연구자들을 위해 노이즈가 섞인 지식 임베딩을 도입하여 실험 진행.
- 약간의 노이즈(1%, 2%, 5%)를 주어도 성능 유지 가능.
- 그러나 20%의 높은 노이즈 비율에서는 성능 저하 발생, 노이즈가 정규화 역할을 하지 않음을 나타냄.
- 결론:
- 다중 뷰 지식 표현 접근 방식은 약간의 노이즈에 견고함.
- KGAN은 외부 지식의 이점이 노이즈의 이점보다 크다.
Comments