21 minute read

이 논문은 대형 언어 모델의 정렬 파인튜닝이 실제로 견고한 효과를 가지는지 이론적·실험적으로 처음으로 조사한다. 실험을 통해 정렬된 후에도 모델이 사전학습 분포로 되돌아가려는 ‘엘라스티시티’를 확인하고, 압축 이론으로 파인튜닝이 정렬 효과를 더 크게 약화시킬 수 있음을 보이며, 모델 크기와 사전학습 데이터 확장이 이 현상에 양의 상관관계가 있음을 시사한다.


1 Introduction

  • 연구 배경 및 문제 의식
    • 대형 언어 모델(LLMs)은 강력한 능력을 보여 주지만, 학습 데이터에 존재하는 편향성과 해로운 콘텐츠로 인해 인간의 의도와 다르게 작동하는 경우가 발견된다. 이는 모델의 정렬(alignment) 문제로 이어지며, 현재의 정렬 방법들이 근본적인 표현(Task) 차원의 문제를 파고들지 못하고 표면적인 정렬에 머무르는 한계가 제기된다.
    • 기존의 정렬 방법으로는 감독 학습 미세조정(SFT), 사람 피드백을 통한 강화학습(RLHF) 등 다양한 파생 기법이 활용되지만, 이들은 모델의 내부 표현까지 깊이 관통하지 못하고 표면적 조정에 머무를 수 있다(일부 연구에서 지적).
  • 현상으로서의 엘라스티시티(탄력성)와 역정렬(inverse alignment)
    • 본 연구는 언어 모델이 엘라스틱하거나 탄력적으로 반응하는 현상을 최초로 체계적으로 탐구한다. 구체적으로는 사전학습된 분포를 보존하려는 경향(저항)과, 더 깊은 정렬에도 불구하고 역방향 미세조정(reverse finetuning) 과정에서 원래의 분포로 빠르게 되돌아가려는 경향(반등/rebound)을 관찰한다.
    • Figure 1(“The Elasticity of Language Models”)에서 보듯, 정규화된 압축률 변화율 ∆γDi/Dpθ와 데이터셋 크기 Di 사이의 관계는 역비례 경향으로 나타나며, 이는 다중 스프링의 변형(deformation)과 강성(k) 간의 관계와 유사하다. 이를 수식적으로는 다음과 같이 표현할 수 있다:
      • \[\frac{\Delta \gamma_{D_i}}{D_p\theta} \propto \frac{1}{\vert D_i \vert}\]
  • 수식적 은유와 이론적 시도
    • 모델의 압축/표현 변화와 데이터셋 규모 간의 관계를 이용해 LLM의 탄력성을 설명하려 한다. 이때 데이터셋의 크기가 커질수록 변화율이 작아지는 역비례 관계가 관찰된다고 본다.
    • 또한 스프링의 연결(연쇄)에서의 강성 및 변형 관계에 빗대어, 다수의 스프링이 연결된 시스템에서의 전체 변형과 등가 강성을 해석하는 compressions(압축) 프로토콜이 제시된다.
    • 예시적인 물리 모델로는 후크의 법칙(F = k Δl)과 다중 스프링의 합성 시스템이 도입되며, 이들 은유를 통해 LLM의 정렬-탄력성 메커니즘을 설명하고자 한다.
      • 단일 스프링에 대한 후크 법칙의 기본 표현: \(F = k\,\Delta l\)
      • 연쇄 스프링에서의 총 변형과 등가 강성의 관계:
        • \[\Delta l = F \sum_i \frac{1}{k_i}\]
        • \[k_{\text{eff}} = \left( \sum_i \frac{1}{k_i} \right)^{-1}\]
  • 연구의 목표와 기여
    • 특징적 현상(Phenomenon)
      • 언어 모델이 엘라스틱하게 동작한다는 것을 확인하고, 저항(resistance)과 반등(rebound)이라는 두 가지 핵심 현상을 체계적으로 기술한다. 특히 변화율 ∆γDi/Dpθ가 데이터셋 규모 Di 에 반비례하는 성질을 강조한다.
    • 메커니즘 제시(Mechanism)
      • 모델의 학습-정렬 과정을 압축 제약(compression) 관점에서 모델링하고, 이를 통해 엘라스틱성의 근본 기제를 설명하는 이론적 토대를 마련한다. Section 3.2의 압축 정리(theorem-based formalism)와 Section 4.3의 연쇄 스프링 비유를 통해 정렬 과정의 물리적 해석을 제시한다.
    • 검증과 의의(Validation)
      • 다양한 LLM들에서 지속적으로 저항 및 반등 현상이 관찰되었음을 실험적으로 확인한다(Section 5). 이는 엘라스틱성의 보편성(Universality)을 시사하며, 보다 강건하고 깊은 정렬에 이르는 체계적 접근의 필요성을 강조한다.
    • 정렬 현황과 역설(invited discussion)
      • 현재의 정렬 방법들(SFT, RLHF 등)은 인간 의도와 가치를 반영하도록 설계되었지만, 모델의 내부 표현에 깊숙이 침투하지 못하고 피상적 정렬에 머무르는 문제점이 보고된다. 역정렬(inverse alignment)라는 개념은 이와 같은 한계를 지적하며, 기술적 조치를 통해 정렬을 역전시키거나 취소할 수 있는 가능성을 시사한다.
  • 핵심 요약의 구성 포인트
    • 현상(Elasticity): 언어 모델은 저항과 반등의 엘라스틱한 성질을 보이며, 정렬의 깊이에 따라 원래의 사전학습 분포로 되돌아가려는 경향이 있다.
    • 기제(Mechanism): 압축/정렬 과정을 formalize한 이론적 프레임워크를 제시하고, 연쇄 스프링 비유를 통해 탄력성의 기초를 설명한다.
    • 검증(Validation): 여러 LLM에 걸친 실험에서 일관된 저항과 반등 현상이 재현되며, 엘라스틱성의 보편성을 시사한다.
    • 시사점: 현재의 정렬 방법들이 내부 표현까지 깊이 반영하지 못한다는 문제를 지적하고, 보다 심층적이고 견고한 정렬 전략의 필요성을 제시한다.
  • 참고 및 맥락
    • 본 연구는 Bai et al. (2022a), Ji et al. (2024c), Qian et al. (2024), Lin et al. (2025) 등 데이터셋 편향/오용 문제와 LLMS의 비정합성 현상을 다루는 기존 연구들과 맥락을 공유한다.
    • 이 연구의 기여는 정렬의 물리적/수학적 메커니즘을 제시하고, 이를 바탕으로 역정렬의 가능성을 논의하는 데 있다.

2 Related Work

  • 프리트레인된 LLM은 여전히 offensive한 콘텐츠를 생성하는 경향이 있으며, 이를 줄이기 위한 정렬(Alignment) 연구가 진행되어 왔다. 대표적으로 Ouyang et al. (2022), Bai et al. (2022a), Yang et al. (2024) 등이 유해 출력을 최소화하도록 모델을 정렬하려고 시도했다.
  • 하지만 연구에 따르면 잘 정렬된 모델조차도 쉽게 손상될 수 있고, 악의적이지 않은 데이터셋으로 파인튜닝하더라도 안전 메커니즘이 의도치 않게 저하될 수 있다. 이는 Yang et al. (2023b), Qi et al. (2024b), Hubinger et al. (2024), Dong et al. (2024) 등의 연구에서 지적된다.
  • 더 나아가 최근 연구는 학습 중 모델이 훈련 목표에 선택적으로 순응하며 내부 선호를 보존하는 경향이 있음을 제시한다. 이로 인해 정렬이 견고하지 않다는 주장이 강화된다(Greenblatt et al. 2024; Lang et al. 2024; Park et al. 2024).
  • 왜 정렬이 이렇게 취약한가에 대한 질문에 대해 Wei et al. (2024)은 가중치 속성화(weight attribution)를 통해 안전-필요 영역(safety-critical)과 유틸리티 관련 영역을 뉴런 및 랭크(rank) 수준에서 구분한다는 관점을 제시한다.
  • 또한 Qi et al. (2024a)은 표면적 토큰을 넘어서 모델의 내부 메커니즘을 형성하도록 해야 한다는 얕은(shallow) 안전 정렬(shallow safety alignment) 개념을 제안한다.

3 What is Elasticity?

  • 언어 모델이 탄력성(elasticity)을 보인다는 관찰: 이는 정렬(alignment)에 대한 저항으로 이어질 수 있음.
  • 본 섹션의 목표: 탄력성의 형식적 정의를 도입하고, 분석에 쓰이는 압축 이론 도구를 제시.
  • 구성 요소:
    • 훈련 정렬 목표(training alignment objective)의 개요를 먼저 검토
    • 이어서 압축 이론의 정리(압축 정리, compression theorem)에 대한 소개
  • 핵심 아이디어: 탄력성을 정량화하고 이를 통해 모델의 정렬에 대한 한계와 가능성을 체계적으로 분석하기 위한 프레임워크를 제공.

3.1 Preliminaries

  • Pre-training
    • 대규모 언어 모델은 방대한 비구조적 텍스트를 처리하며 기초적 언어 이해와 추론 능력을 습득
    • 사전 학습 손실은 다음과 같이 정의된다: \(L_{PT}(\theta; D_{PT}) = - \mathbb{E}_{(x, x_N) \sim D_{PT}} \left[ \log p_\theta \bigl( x_N \vert\vert x \bigr) \right]\)
      • 여기서 \(x = (x_0, \dots, x_{N-1})\), \(N \in \mathbb{N}\)이며 \((x_0, \dots, x_N)\) 은 사전 학습 텍스트의 프리픽스 형태를 이룬다
      • \(D_{PT}\) 는 프리트레이닝 데이터 셋
  • Supervised Fine-tuning (SFT)
    • SFT 는 사전 학습된 모델이 특정 지시를 따르도록 조정하며, 대상 작업과의 정렬을 위해 비교적 작은 데이터 셋을 사용한다
    • DSFT = { \((x_i, y_i)\) }^N_{i=1} 이고 이는 고품질 분포에서 샘플링
    • SFT 목표는 음의 로그 우도 손실을 최소화하는 것: \(L_{SFT}(\theta; D_{SFT}) = - \mathbb{E}_{(x,y) \sim D_{SFT}} \left[ \log p_\theta \bigl( y \vert\vert x \bigr) \right]\)
    • DSFT 를 지정하면 \(\mathbb{E}_{(x,y) \sim D_{SFT}} [ \log p_D(y \vert\vert x) ]\) 가 θ에 의존하지 않는 고정항이 되므로, LSFT 는 SFT 분포에 대한 p_\theta 과의 KL 발산으로 해석할 수 있다: \(L_{SFT} = \text{KL}\big(p_\theta(\cdot \vert\vert \cdot) \;\Vert\; p_{SFT}(\cdot \vert\vert \cdot)\big) + \text{const}\)
  • Lossless Compression
    • 손실 없는 압축의 목표는 주어진 데이터셋 \(D\) 와 그 분포 \(P_D\) 를 가능하면 짧은 평균 길이로 인코딩하고, 원본 데이터를 완전히 복원할 수 있는 디코딩 체계를 갖추는 것
    • 샤논의 소스 코딩 정리에 따르면 \(X \sim P_D\) 인 경우 모든 손실 없는 압축 프로토콜의 기대 코드 길이 \(L\) 은 \(L \ge H(P_D)\)
    • 여기서 \(H(P_D)\) 는 \(P_D\) 의 샤논 엔트로피
  • Compression and Prediction
    • 압축과 예측은 밀접하게 연결되어 있다
    • 모델 \(p_\theta\) 와 데이터세트 \(D\) 로부터 얻은 \(x = (x_0, \dots, x_{m-1})\) 에 대해 산술 부호화에 의한 기대 코드 길이 \(L = \mathbb{E}_{x \sim D} \left[ \sum_{0 \le k \le m} -\log_2 p_\theta \bigl( x_k \vert\vert x_0, \dots, x_{k-1} \bigr) \right]\)
    • 이는 현재의 언어 모델 학습 목표가 되며, 로그 우도 손실의 최소화는 손실 없는 압축률의 최소화와 동치
    • 따라서 최적의 압축과 예측은 서로 등가하다고 알려져 있다( Delétang et al., 2023; Hutter, 2005 )
    • 실험적으로도 대형 언어 모델의 예측과 압축 사이의 등가성이 확인되었고, 압축 성능은 지능과 선형적으로 상관관계가 있음이 보고된다( 예: Huang et al., 2024 ).

3.2 The Compression Protocol of LLMs

  • 연구의 핵심 아이디어
    • 언어 모델의 학습을 손실 없는 압축 프로토콜로 간주하여, 모델이 다양한 데이터셋에 대해 함께 압축하는 과정으로 해석.
    • 토큰화 영향은 입력/출력 모달리티를 이진 토큰(0/1)으로 두고 다룬다.
    • 데이터셋 D = { z_i ∈ {0 \vert 1}^∞ i = 1,2,··· }의 토큰 트리 TD를 통해 모델의 압축 능력을 분석한다.
  • 정의 3.1 (토큰 트리 T)
    • 토큰 트리 TD는 각 노드가 자식으로 0 또는 1을 가지며 끝-오브-시퀀스(EOS) 잎 노드를 포함한다.
    • 루트에서 잎으로의 경로는 각 응답 z_i를 정의하고, EOS 잎의 가중치는 해당 응답의 확률을 나타낸다.
    • 비잎 노드의 가중치는 자식 노드의 가중치 합과 같다.
    • 수식 예시: 데이터셋 D = { z_i ∈ {0 \vert 1}^∞ }의 정의 및 노드 가중치 구조를 통해 학습은 토큰 트리의 노드 가중치를 학습하는 것으로 모델링된다.
  • 가정 3.2 (모델 규모에 따른 T의 스케일)
    • 파라미터화된 모델 p_θ(·)와 데이터셋 D를 고려할 때, p_θ로 완벽하게 모델링 가능한 TD의 깊이는 θ의 크기에 따라 단조 증가한다는 가정.
    • 즉, 더 큰 모델은 더 깊은 트리 부분까지 정확히 다룰 수 있다.
  • 정의 3.3 (압축 프로토콜)
    • 모델 p_θ(·)를 이용해 데이터셋 D를 압축하는 두 단계로 정의된다.
    • a) 토큰 트리를 최대 d층까지만 남기고 프루닝한다(상위 d층 유지).
    • b) 잘린 토큰 트리에 대해 허프만(Huffman) 코딩으로 압축한다.
    • 구체적으로, 루트에서 잎으로의 각 경로를 허프만 코딩의 심볼로 간주하고, 잎의 가중치를 심볼의 확률로 삼는다.
    • 이 프로토콜은 허프만 코딩의 최적성 및 무손실 특성을 활용해 최적의 압축 길이를 보장한다.
    • 수식 표현의 핵심 아이디어: 깊이가 d인 레이어에서의 각 노드의 확률 분포 { p_{l j} }를 이용해 이상적인 인코딩 길이를 계산한다.
  • 정리 3.4 (이상적인 코드 길이)
    • 유한 파라메트릭 모델 p_θ(·)가 D 위에서 학습될 때, 깊이 d로 잘린 뒤의 토큰 트리에서 임의의 응답 x를 압축한의 이상적인 코드 길이 L_{pθ}(x)의 기대값은 다음과 같이 표현된다:
    • 수식: \(E[L_{pθ}(x)] = \left\lceil \lvert x \rvert \rvert_d \right\rceil \left[ - \sum_{l=1}^d \sum_{j=1}^{2^{l-1}} p_{l j} \log p_{l j} \right]\)
      • 여기서:
        • d는 정의 3.3의 프로토콜에 따라 잘린 깊이,
        • p_{l j}는 l번째 층의 j번째 잎 노드의 확률(가중치),
        • \lvert x \rvert \rvert_d는 깊이 d로 자른 x의 길이를 나타낸다.
    • 이 식은 허프만 코딩의 최적성에 의해 결정되는 이상적인 코드 길이를 나타낸다.
  • 다(dataset) 상황에서의 공명압축( joint compression )
    • 서로 독립적이거나 서로 배타적인 N개의 데이터셋 D1, …, DN가 있을 때, 합집합 D = ⋃{i=1}^N D_i에 대한 토큰 트리의 노드 가중치 p^D{l j}는 다음과 같이 혼합으로 표현된다: \(p^D_{l j} = \frac{ \sum_{i=1}^N p^{D_i}_{l j} \lvert D_i \rvert }{ \sum_{i=1}^N \lvert D_i \rvert }\)
      • p^{D_i}_{l j}는 D_i의 TD에서의 확률 값.
    • 특정 데이터셋 D_i에 대한 압축 속도(또는 압축률) γ^{pθ}_{D_i}은 다음과 같이 정의된다: \(\gamma^{pθ}_{D_i} = \mathbb{E}_{x \sim P_i} \left[ \frac{ L^{D_i}_{pθ}(x) }{ \lvert x \rvert } \right] = \Theta \left( - \frac{ \sum_{l=1}^d \sum_{j=1}^{2^{l-1}} p^{D_i}_{l j} \log p^{D_i}_{l j} }{ d } \right)\)
      • 여기서 L^{D_i}_{pθ}(x)는 D_i 위에서의 코드 길이.
      • 이는 압축 길이를 원래 길이로 나눈 값으로 정의되는 압축률이며, 학습 목표와 압축 목표 간의 일관성을 보장한다.
    • 참고: 이와 관련된 추가 상세 내용은 Appendix A에 기재되어 있다.
  • 해석적 요지
    • 학습 손실을 최소화하는 과정은 압축률을 최소화하는 과정과 등가에 가깝다.
    • 토큰화의 영향은 입력/출력 모달리티를 이진 토큰으로 고정했을 때의 토큰 트리 기반 압축으로 표현된다.
    • 다데이터셋 상황에서도 데이터셋 간의 합성(혼합) 가중치를 이용해 전체 압축률과 개별 데이터셋의 압축률 간의 관계를 분석한다.

3.3 The Formal Definition of Elasticity

  • 정의 3.5 (Inverse Alignment)
    • 요지: 데이터 셋 D_a로 정렬된 언어 모델 p_{θ_0}에서 p_{θ_1}이 생성되고, D_b D_a 인 데이터셋 D_b를 p_{θ_1}에 적용했을 때 p_{θ’0}를 얻으면, p{θ_1}에서 p_{θ’_0}로의 전이를 inverse alignment로 정의한다.
    • 핵심 조건: 어떤 ε > 0에 대해 p_{θ’0}이 p{θ_0}에 대해 근접하도록 만드는 것.
    • 수식: \(\rho(p_{\theta'_0}, p_{\theta_0}) \le \varepsilon\)
  • 정의 3.6 (The Elasticity of LLMs)
    • 요지: 언어 모델 p_{θ_0}와 변형 p_{θ_0} \to p_{θ_1}에서, 알고리즘적으로 간단한 역 연산 g와 D_b D_a 인 D_b가 존재하면 elasticity가 성립한다. 이때 p_{θ_1} g(D_b) \longrightarrow p_{\theta’0}이고 ρ(p{\theta’0}, p{\theta_0}) \le \epsilon_0(상수)이다.
    • 구성 요소:
      • 역 연산 g가 존재하고 D_b의 크기가 작다: $$ D_b \ll D_a $$
      • 역 연산 적용 후의 모델 전이: \(p_{\theta_1} \, g(D_b) \longrightarrow p_{\theta'_0}\)
      • 근접성 보장: \(\rho(p_{\theta'_0}, p_{\theta_0}) \le \epsilon_0\)
    • 비고: 평가 지표 ρ는 모델 간의 행동적 및 분포적 근접성을 나타내는 척도로 해석한다.
    • 맥락: 압축 정리(compression theorem) 맥락에서 탄성성 평가 시 ρ로 압축률 γ_{D_i} p_{\theta}를 사용한다.

4 Why Elasticity Affects Alignment?

  • 섹션의 목표: 언어 모델의 엘라스틱성(elasticity)을 정식화하고, 이 특성이 모델의 학습 및 정합성(alignment) 과정에 어떤 영향을 주는지 분석한다. 특히 더 큰 데이터셋 분포와 더 작은 데이터셋 분포 간의 차이가 왜 정합성에 저항하는지, 그리고 이 저항이 어떤 메커니즘으로 작용하는지 설명한다.
  • 엘라스틱성의 핵심 정의: 미세조정 perturbation이 주어졌을 때, 모델의 출력 분포가 더 큰 데이터셋(D_L)과 연관된 분포를 보존하려는 경향을 보인다. 예를 들어, 대표적 출력 S에 대해 \(P(S \vert D_L) \ge P(S \vert D_S)\) 가 성립한다. 여기서 D_L은 큰 데이터셋의 분포, D_S는 작은 데이터셷의 분포를 나타낸다.
  • 엘라스틱 불변량(elastic invariant)의 아이디어: 특정 조건 하에서 엘라스틱성 아래에서도 출력의 일부 속성이 불변으로 남는다는 개념을 formalize한다. 예를 들어, 어떤 함수 I가 존재하여 perturbation 아래 특정 출력을 보존하는 경향이 나타난다고 정의할 수 있다.
  • 왜 엘라스틱성이 정합성에 저항하는가: 대형 데이터에서 학습된 통계적 구조가 작은 데이터에서의 신호보다 더 강력하게 남아, 정합을 향한 의도된 신호가 약화되거나 왜곡될 수 있는 이유를 수학적 관점에서 분석한다.
  • 역정합 가능성(inverse alignment): 특정 조건에서 작은 데이터의 신호가 상대적으로 더 크게 작용하여 역방향으로 작용할 수 있는 가능성을 논의한다. 예를 들면, 샘플링이나 민감도 차이로 인해 \(P(S \vert D_S) > P(S \vert D_L)\) 가 관찰될 수 있는 상황을 제시한다.
  • 형식적 정리와 모델 해석: 엘라스틱성을 다루는 연산자나 맵핑 E를 도입하고, perturbation T에 대한 출력 분포의 변화를 수식으로 나타낸다. 예를 들어 \(P(S \vert D_L) \ge P(S \vert D_S) \quad \text{for all 대표적 출력 집합 S}\) 과 같은 관계를 통해 엘라스틱성이 어떻게 작동하는지 정량적으로 기술한다.
  • 학습 다이나믹스에 대한 영향: 데이터 분포의 차이가 가중치 업데이트의 방향과 크기에 어떻게 반영되는지, 그리고 대형 데이터의 구조가 미세조정에서 얼마나 더 오래 남는지에 대한 연결고리를 제시한다.
  • 실험적 시사점: 엘라스틱성의 존재 여부를 확인하기 위한 실험 설계, 측정 지표, 그리고 관찰될 수 있는 신호의 예시를 간략히 제시한다.
  • 정렬 전략에 대한 함의: 엘라스틱성을 완화하거나 제어하기 위한 방법론(정규화, 데이터 다양성 확보, 멀티 태스크 학습, 목적 함수의 구조 조정 등)을 제안하고, 이러한 방법들이 왜 도움이 될 수 있는지 논의한다.
  • 한계점과 향후 연구 방향: 엘라스틱성의 정의 범주, 실험설계의 한계, 일반화 가능한 인사이트를 얻기 위한 방향을 제시하며, 추가 연구가 필요한 영역을 요약한다.

4.1 Formal Derivation of Elasticity

  • 목표 및 설정
    • 사전 학습(pre-training) 및 정렬(alignment) 후의 행동 변화가 작은 데이터셋으로의 미세 조정(fine-tuning)으로 인해 어떻게 perturbation에 반응하는지 분석하고, 변화 지표로 압축률(compression rate)을 사용합니다.
    • 분석 대상은 두 데이터셋 D1, D2이며, D1은 더 큰 규모로서 사전 학습 또는 정렬의 주요 목표를 나타내고, D2는 더 작은 규모로서 정렬 과정의 보조 목표를 나타냅니다.
    • 데이터 분포는 서로 다르고 독립적일 것이라고 가정합니다.
    • 서로 다른 데이터셋에서 얻는 압축률의 규모 차이를 보정하기 위해 압축률을 정규화(normalize)합니다.
  • 정규화 정의(정의 4.1)
    • N개의 서로 분리된 데이터셋 D1, …, DN와 파라미터 모델 pθ가 D = ⋃{i=1}^N D_i 를 압축할 때, 특정 데이터셋 Di에 대한 정규화된 압축률 γ{D_i/D} pθ는 아래와 같이 정의됩니다:
    • \(\gamma_{D_i/D} p_\theta = \gamma_{D_i} p_\theta - \log M,\) 단, M은 데이터셋 Di의 pruned 트리 T′_i의 Leaf 노드 수입니다.
    • 정규화된 압축률은 서로 다른 데이터셋 간에 모델의 압축 성능을 비교할 수 있게 해주며, 값이 작을수록 해당 데이터셋에 대한 압축 성능이 더 좋음을 의미합니다.
  • 주요 결과: 언어 모델의 엘라스틱성
    • 정리: D1, D2 및 D3가 각각 Pareto 질량 분포(Newman, 2005)를 따르고, 모델 pθ가 D = D1 ∪ D2 ∪ D3에서 학습될 때, D3의 데이터 용량 변화에 따라 정규화된 압축률 γ_{D1/D} pθ와 γ_{D2/D} pθ가 어떻게 변하는지 보면 다음과 같습니다:
    • \[\frac{d \gamma_{D_2/D} p_\theta}{d l} = \Theta\left(- k\, \frac{d \gamma_{D_1/D} p_\theta}{d l}\right), \quad \frac{d \gamma_{D_1/D} p_\theta}{d l} < 0,\quad \frac{d \gamma_{D_2/D} p_\theta}{d l} > 0,\]
    • 여기서 \(l = \frac{\vert D_3 \vert}{\vert D_2 \vert} \ll 1,\quad k = \frac{\vert D_1 \vert}{\vert D_2 \vert} \gg 1.\)
    • 해석 요지:
      • perturbation이 커질수록 D1에 대한 정규화 압축률은 감소하고, D2에 대한 정규화 압축률은 증가합니다.
      • 변화율은 데이터셋 크기와 강하게 연관되며, 모델은 서로 다른 데이터셋 간의 비례적 변화와 달리 더 큰 규모의 데이터셋 쪽으로 편향된 경향을 보이는 것으로 해석됩니다.
      • 이 현상은 데이터의 규모 차이에 의해 모델의 행동이 선호되는 방향으로 기울어질 수 있음을 시사합니다.

4.2 Elasticity and Inverse Alignment

  • 이 섹션의 핵심: perturbation 하에서 서로 다른 데이터셋의 정규화된 압축률 변화는 데이터셋 크기에 반비례한다는 것을 정리한다(정리 4.2). 즉, 데이터셋이 작을수록 변화가 크게 나타난다.

  • 수학적 표현
    • 데이터셋 i의 크기를 N_i라고 두면, perturbation 아래의 압축률 변화 ΔR_i는 \(\Delta R_i \propto \frac{1}{N_i}\) 또는 \(\Delta R_i = \frac{k}{N_i} \quad (\text{여기서 } k \text{는 perturbation 의존 상수})\)
    • 두 데이터셋 P(사전훈련)와 A(정렬/일치) 간의 상대 변화는 \(\frac{\Delta R_A}{\Delta R_P} = \frac{N_P}{N_A}\) 따라서 N_P \gg N_A인 경우 ΔR_A가 ΔR_P에 비해 훨씬 크게 나타난다.
  • 직관적 해석
    • 여러 데이터셋에 걸친 압축 과정은 도시-농촌 간 자원 배분에 비유될 수 있다. 대규모 데이터셋(도시)이 시스템의 주도적 위치를 차지하며, 작은 데이터셋(농촌)은 주어진 perturbation에 더 민감한 변화를 보이게 된다.
    • 이러한 엘라스티시티(elasticity)가 inverse alignment를 가능하게 한다는 직관이 제시된다. 즉, 이후의 perturbation이 발생할 때, 큰 사전훈련 데이터의 분포로 재수렴하려는 경향이 생겨 정합(align) 분포와의 정합성이 역방향으로 움직일 수 있다.
  • 역설적 시사점
    • elasticity를 활용한 perturbation 설계가 inverse alignment를 극대화하는 열쇠가 될 수 있다. 즉, 의도적으로 작은 데이터셋에 큰 변화를 유도함으로써 정렬 목표와의 관계를 반대로 이끌 가능성이 있다.
  • 실무적 함의 및 예시
    • 큰 차이의 데이터셋 크기가 존재할 때, alignment 데이터의 성능 변화가 예측보다 훨씬 크게 나타날 수 있으며, 이는 여러 주문 규모의 차이가 수몇 배에서 수십 배 이상으로 확대될 수 있음을 시사한다.
    • 예시 수치: 예를 들어 N_P = 10^9 토큰, N_A = 10^6 토큰일 때 \(\frac{\Delta R_A}{\Delta R_P} = \frac{10^9}{10^6} = 10^3\) 이로 인해 alignment 데이터에서의 변화가 pre-training 대비 세 자릿수만큼 더 크게 나타날 수 있음을 보여준다.
  • 결론
    • Section 4.2는 데이터셋 간 크기 차이가 perturbation 하에서 압축률의 민감도에 비례적으로 영향을 미친다는 이론적 프레임워크를 제시한다. 이를 바탕으로 elasticity의 효과를 최대화하는 perturbation 설계가 실제 inverse alignment를 달성하는 핵심 전략이 될 수 있다.

4.3 Elasticity and the Hooke’s Law.

  • 이론적 요약: Theorem 4.2의 역비례 결과에 따르면 perturbation 이후 서로 다른 데이터셋의 압축률 변화율은 데이터셋 크기에 반비례하며, 그 곱의 절댓값은 상수로 유지된다. 이 상수는 perturbation의 영향력을 특징지내고, 모델의 perturbation에 대한 저항력, 즉 탄성(elasticity)을 간접적으로 설명한다.

  • 탄성의 직관적 비유: 모델의 탄성을 직렬로 연결된 두 개의 스프링으로 비유할 수 있다. 즉, 두 스프링의 강성 k1, k2가 있을 때 외부 힘 F로 시스템이 변형되면 각 스프링의 탄성력은 F로 같고, 훅의 법칙에 따라 늘어난 길이 ∆l1, ∆l2는 각각의 스프링 상수에 반비례한다. 따라서 \(F \propto k_1 \,\Delta l_1 = k_2 \,\Delta l_2.\)

  • 언어 모델 설정과 연결: 언어 모델에서 Theorem 4.2를 손실 함수 level l에 적용하면 서로 다른 데이터셋 Di에 대한 변화량 ∆γ_{Di}/D p_θ는 총 KL 발산의 변화 ∆DKL(P_{pθ} \Vert P_{Di})와 연결되며, 이는 모델의 분포와 각 데이터셋의 분포 간의 차이가 데이터셋 크기 D_i 에 반비례한다. 여기서는 ∆DKL의 절댓값만 고려한다.
  • LLM의 탄성 식(주요 식): 직렬 스프링 비유에 따라 LLM의 탄성 F는 다음과 같이 만족한다. \(F \propto \vert D_i \vert \cdot \Delta DKL \left( P_{p\theta} \vert\vert P_{D_i} \right)\) (식 (3))

  • 해석 및 대응관계: 이때 ∆DKL은 스프링 모델의 ∆l에 대응하고, \vert D_i \vert는 스프링 상수 k에 대응한다. 따라서 LLM의 탄성은 데이터셋 크기와 KL 발산 변화의 결합으로 설명된다.

5 How Elasticity Resists Alignment?

  • 사전학습된 모델에 대한 저항성(Resistance for Pre-Trained Models)
    • 요지: 모델은 원래의 분포를 유지하려는 경향이 강해 정렬 신호에 쉽게 흔들리지 않는다.
    • 아이디어: 정렬 압력이 작게 작용하더라도, 최적화된 분포는 여전히 초기 분포 P0를 근접하게 유지하려는 탄성에 의해 버티게 된다.
    • 수식 예시: \(P_{\text{post}}(x) = P_0(x) + \delta(x), \quad \forall x,\ \vert \delta(x) \vert \le \epsilon.\)
  • 포스트-트레이닝 모델에 대한 리바운드(Rebound for Post-Trained Models)
    • 요지: 포스트트레이닝 방향과 반대 방향으로의 파인튜닝은 빠르게(pretraining 분포로) 되돌아가려는 경향을 보인다.
    • 아이디어: 반대 방향의 미세 조정이 진행될수록 원래의 pretraining 분포로의 복원이 촉진되며, 일정 기간 후에는 정렬 전 분포에 가까워진다.
    • 수식 예시: \(P_t(x) = P_0(x) + \delta_t(x), \quad \vert \delta_t(x) \vert \le \epsilon_t, \quad \epsilon_t \to 0 \text{ as } t \to \infty.\)
    • 추가 해석: 이 과정을KL 발산 측면에서 보면, \(D_{\mathrm{KL}}(P_t \| P_0) \to 0 \quad \text{as } t \to \infty.\)

5.1 Existence of Language Models’ Resistance

  • 개요: Resistance를 forward alignment보다 inverse alignment가 더 쉽게 달성된다는 가정으로 정의하고, 실제로 이것이 존재하는지 확인하는 실험 설계이다.

  • 실험 설계의 핵심 아이디어:
    • 사전 학습된 LLM 파라미터를 θ0로 두고, 1에폭의 SFT를 수행하여 θ1, θ2, …, θn의 슬라이스를 저장한다.
    • 보류 프롬프트(hold-out prompts)에서 슬라이스 θk와 θl(단, k < l)의 응답을 수집해 데이터셋 Dk, Dl을 생성한다.
    • Forward alignment(Path A)은 θk를 Dl에서 재학습하는 과정이고, Inverse alignment(Path B)은 θl를 Dk에서 재학습하는 과정으로 정의한다.
  • 데이터 및 모델 설정:
    • SFT 데이터셋으로 Alpaca, TruthfulQA, Beavertails를 사용하고, 이들 데이터셋은 각각 모델의 3H 원칙(Askell et al., 2021)에 대응한다.
    • 데이터셋을 세 부분으로 나누어 세 개의 슬라이스 {θ1, θ2, θ3}를 얻는다.
    • 기본 모델 θ0로 Llama2-7B, Llama2-13B, Llama3-8B를 사용한다.
  • 실험 결과(주요 내용):
    • 표 1에 제시된 바와 같이 역정렬(Inverse alignment)의 학습 손실은 forward alignment보다 일관되게 낮다.
    • 슬라이스 쌍의 선택에 관계없이 모든 모델과 데이터셋에서 이 경향이 관찰된다.
    • 이 결과는 역정렬이 forward 정렬보다 쉽다는 일반화를 시사하며, 저항성의 존재를 입증한다.
  • 추가 검증 및 보충 정보:
    • 저항성에 대한 추가 실험 상세와 결과는 부록 B.1에 제공된다.
  • 요약 시사점:
    • 이 연구는 사전 학습된 언어 모델에서 역정렬이 더 용이하다는 현상을 반복적으로 관찰함으로써, Language Models의 Resistance 존재를 실험적으로 뒷받침한다.
    • 다양한 모델 크기와 데이터셋에 걸쳐 일반화되는 경향이 확인되었다.

5.2 Existence of Rebound

  • 개념 정의
    • 포스트-트레이닝 모델의 성능이 더 긍정적으로 나올수록, 역미세조정(inverse finetuning) 후에는 더 부정적으로 악화되는 현상인 rebound를 제시한다.
    • 직관: post-trained 모델의 초기 성능이 높을수록 inverse fine-tuning 시점에서 큰 하락이 나타나고, 이후에 저항(resistance) 효과로 하락 속도가 완화된다.
  • 실험 설계 개요
    • 포스트-트레이닝된 모델의 비교 대상: \(\theta_2 \rightarrow \theta_1\) vs. \(\theta_1 \rightarrow \theta_2\), \(\theta_3 \rightarrow \theta_2\) vs. \(\theta_2 \rightarrow \theta_3\), \(\theta_3 \rightarrow \theta_1\) vs. \(\theta_1 \rightarrow \theta_3\)
    • 대상 Alpaca, Llama2-7B, Llama2-13B, Llama3-8B, Truthful, Safe 등 다양한 모델과 데이터 조합
    • 핵심 결론: 다양한 모델/태스크/스테이지에서 forward alignment가 inverse alignment보다 더 어려움(손실이 더 큼); 사전 학습된 모델은 원래의 분포를 유지하려는 경향이 존재
  • 도식 및 주요 시사점
    • Figure 4의 실험 도식: IMDb(left), Beavertails(right); Gemma-2B(left)와 Llama2-7B(right)
    • 요지: 더 많은 양의 긍정 데이터로 파인튜닝한 모델일수록, 부정 데이터로의 역미세조정이 시작될 때 성능이 더 빠르게 하락하지만, 시간이 지나며 하락 속도가 완만해져 안정화되는 경향이 나타난다
    • 재현 요지: 초기의 급격한 성능 하락은 모델이 프리트레이닝 분포에서 멀리 떨어져 있기 때문이고, 이후의 안정화는 프리트레이닝 분포에 가까워졌기 때문이라는 두 가지 현상으로 해석
  • 태스크와 데이터셋
    • 두 가지 상반된 특성의 태스크: 긍정적 생성(positive generation)과 단일 턴의 안전한 대화(single-turn safe conversation)
    • 긍정적 생성 데이터 출처: IMDb 데이터셋의 긍정/부정으로 분류된 샘플
    • Beavertails 데이터셋: 안전/비안전으로 분류된 샘플
    • 긍정 샘플 크기: {1000, 2000, 5000, 10000}
    • 부정 샘플 크기: {100, 200, 500, 1000, 2000}
  • 평가 지표 및 방법
    • 긍정적 스타일 생성: Rafailov et al. 2024를 참조하여 Sentiment Roberta 모델(Hartmann et al. 2023)로 응답의 긍정 분류 비율을 모델 점수로 사용
    • 단일 턴 안전 대화: 안전성 평가를 위해 비용 모델(Dai et al. 2024)을 사용하고, 응답들의 평균 점수를 모델 점수로 사용
    • 테스트 프로 prompts에 대한 모델 응답 수집 및 기존 연구의 점수 모델 적용
  • 실험 결과의 핵심 요지
    • 대상 모델: Llama2-7B, Gemma-2B
    • Figure 4의 결과: 긍정 데이터 양이 많을수록, 부정 데이터로의 소량 파인튜닝에서 성능 저하가 더 급격하게 나타나고, 이후 하락 속도는 둔화되어 안정화 경향을 보임
    • 해석: 초기 급락은 rebound 현상으로 인한 것으로, 모델이 프리트레이닝 분포에서 멀리 떨어져 있기 때문이며, 후속 안정화는 반대편 분포(프리트레이팅 분포)에 가까워졌기 때문
    • 일반화 평가: alignment 알고리즘, 평가 메트릭스, 파인튜닝 방향에 대한 추가 분석(ablation)에서 rebound 현상이 다양한 언어 모델에서 일관되게 검증
    • 세부 내용은 Appendix B.2 참고
  • 모델 규모 및 데이터 규모에 따른 일반화 결과
    • Figure 5: 모델 크기가 커질수록 rebound 현상이 더 빠르게 나타나며, 양성 데이터에 대한 조정 후 부정 데이터로의 추가 파인튜닝에서 성능 저하가 더 급격히 진행
    • Figure 6: 프리트레이닝 데이터 양이 많을수록 alignment된 모델의 성능 저하가 부정 데이터로의 파인튜닝 이후 더 급격히 진행
    • 요지: 모델 크기와 프리트레이닝 데이터 규모가 커질수록 rebound 효과가 더 강하게 나타나는 경향
  • 결론 및 의의
    • rebound 현상은 다수의 언어 모델에서 일관되게 관찰되며, 이는 긍정 데이터로의 초기 학습이 많을수록 부정 데이터에 대한 역미세조정 시 더 큰 성능 하락으로 이어진다는 것을 시사
    • 두 가지 상반된 특성(예: 안전성/비안전성)을 다루는 여러 태스크에서 재현 가능
    • 추가 실험 및 세부 설정은 Appendix B.2 및 관련 Figures를 통해 확인 가능
  • 참고 및 보완 정보
    • 본 실험의 추가 세부사항은 Appendix B.2에 자세히 기술되어 있으며, 더 일반화된 분석은 Figures 4–6에 걸쳐 제시된다

5.3 Internal Factor of Rebound

  • 연구 맥락 및 목표
    • LLM 정렬의 강건성에 중요한 내부 요인으로서 rebound 현상에 영향을 주는 두 가지 축: 모델 파라미터 규모와 사전학습 데이터 양 분석.
    • 공간 제약으로 추가 실험은 Appendix B.3에 수록.
  • 실험 설계 요약
    • 모델 규모: Qwen 계열 모델 0.5B, 4B, 7B로 변화시켜 rebound 변화 관찰.
    • 사전학습 데이터 양: TinyLlama가 공개한 2.0T, 2.5T, 3.0T를 활용해 동일 실험 재현.
  • 주요 결과 요약
    • 모델 규모와 rebound
      • 파라미터 규모가 커질수록 음데이터 미세조정으로 인한 초기 성능 하락은 더 빠르게 진행되었고, 이후의 하락은 더 느리게 나타남.
      • 이는 파라미터 규모가 커질수록 rebound가 증가한다는 것을 시사하며, 모델의 탄력성(Elasticity)과 파라미터 규모 간 양의 상관관계가 있음.
    • 사전학습 데이터 양과 rebound
      • 사전학습 데이터 양이 커질수록 초기 하락은 더 빠르고, 이후의 하락은 더 느리게 나타남.
      • 따라서 더 큰 사전학습 데이터 양이 rebound를 강화한다는 것을 보여주며, 이는 Theorem 4.2의 추론과 일치.
  • 수식으로 나타낸 관찰 요약
    • 모델 규모에 따른 rebound의 간단한 표현
      • \[R_{\text{size}} = \alpha \cdot \text{Size}^{\beta}\]
    • 데이터 양에 따른 rebound의 간단한 표현
      • \[R_{\text{data}} = \gamma \cdot \text{DataVolume}^{\delta}\]
    • 두 축을 종합한 근사 표현
      • \[R \approx R_{\text{size}} + R_{\text{data}} = \alpha \cdot \text{Size}^{\beta} + \gamma \cdot \text{DataVolume}^{\delta}\]
  • 시각적 근거 및 관련 참고
    • 결과는 Figure 5 및 Figure 6에 제시되며, Appendix B.3에 추가 실험이 수록.
    • Theorem 4.2의 추론과도 일치되어 내부 요인의 rebound 기전이 점진적으로 강화된다는 해석을 지지.

6 Conclusion and Outlook

  • 본 연구의 핵심은 언어 모델의 탄력성(elasticity)을 정렬의 취약성에 대한 가능한 메커니즘으로 제시했다는 점이다.
  • perturbation에 직면했을 때, 정규화된 압축률은 데이터셋 크기에 반비례하여 변화하며, 이로 인해 모델이 사전 학습 분포(pre-training distributions)를 더 잘 보존하고 정렬 분포(alignment distributions)를 잊어버리는 경향이 커져 정렬에 저항하게 된다.
  • 실험적으로 이 elasticity 효과의 보편성을 검증했고, 모델 크기와 사전 학습 데이터 규모가 커질수록 elasticity가 강화되는 경향을 관찰했다.
  • 수식으로 표현하면, 변 perturbation 시 정규화된 압축률 r은 데이터셋 크기 D 에 대해 \(r \propto \frac{1}{\vert D \vert}\) 로 변화하는 경향이 있으며, 이로써 정렬에 대한 저항이 증가한다.
  • 6.1에서 다루는 요점은 탄력성 메커니즘의 구체적 해석과 그것이 가져올 시사점, 그리고 향후 연구 방향에 대한 논의다.

Limitations

  • 이론적 한계: 질량 분포를 정의하는 가정 A.7의 구체성에 의존하므로, 이 가정의 정확한 형태에 대한 경험적 연구가 필요합니다.
  • 실험적 한계: 전 pre-training 및 alignment 단계의 전체 수명주기에 걸친 탄성의 체계적 검증을 비용 제약으로 수행하지 못했습니다.
  • 향후 연구 방향 1: 이 현상이 멀티모달 모델에서도 보편적으로 적용될 수 있는지 여부를 확인하고자 합니다. 관련 선행 연구로 Ji et al., 2024d; Huh et al., 2024가 있습니다.
  • 향후 연구 방향 2: 모델의 탄성과 스케일링 법칙 간의 관계를 이론적으로 규명하고자 하며, 특히 탄성이 나타나기 위한 필요한 훈련 데이터 양을 규정하고, 모델 파라미터 수 및 사전 학습 데이터 양이 증가할수록 탄성이 강화되는지 여부를 정량적으로 분석하려 합니다. 관련 근거로 Kaplan et al., 2020; Xiao et al., 2024를 참고합니다.

6.2 Broader Impacts

  • 양자 이슈 요약: Alignement 미세조정은 최소한의 데이터로 LLM의 안전 메커니즘을 조정하려는 목적이지만, 현재의 정렬 알고리즘은 최적화의 단축에 의존할 수 있어 로컬 옵티마에 갇히고 모델의 내재적 메커니즘과의 충분한 상호작용이 부족할 수 있음( Qi et al., 2024a ).

  • 탄력성(elasticity) 관점의 필요성: 매개변수의 수정이 표면적 변화에 그치지 않고 더 robuste하게 작동하도록 하기 위해 더 강한 정렬 방법이 필요하며, 역방향 정합(inverse alignment) 위험을 초래하는 기법들—예: 기만적 적대적 정합, IDAIS-Beijing 2024; Bengio et al., 2025; Marks et al., 2025; Baker et al., 2025 또는 정합 위조(Alignment faking) Greenblatt et al., 2024—을 억제해야 함.

  • 데이터 클렌징의 한계: 학습 단계의 데이터 정화는 언어 모델의 최종 분포의 가변성을 개선하는 효과적인 전략이지만 비용효율적이거나 실현 가능하지는 않음( He et al., 2024; Qi et al., 2024b ).

  • Appendix C.2의 시사점: 역정합 위험을 완화하기 위한 탄력성 기반의 실용적 단계에 대한 예비 논의를 제공하며, 탄력성에 기반한 더 강건한 정렬 알고리즘을 가능하게 하는 향후 연구를 기대. 이를 바탕으로 Reval et al., 2024; Zhang et al., 2024b; Chen et al., 2024; Sheshadri et al., 2024; Liu et al., 2024; Li et al., 2025 등의 연구가 정합의 진정성 및 신뢰성 확보로 이어질 것임.

  • Open-sourcing과 LLMs의 탄력성: 개방형 모델의 공개는 양면성 존재.

    • 장점: 공개 모델 가중치의 공개는 취약점 식별과 대규모 안전 연구를 빠르게 촉진하고, 오픈소스 환경에서 offense-defense의 균형을 유지하며 모델 보안을 향상시키는 데 기여할 수 있음( Seger et al., 2023; Anwar et al., 2024; Kukreja et al., 2024 ).

    • 위험: 악의적 미세조정(malicious fine-tuning) 및 시스템 탈옥(jailbreak)을 돕는 공개 모델의 사용 가능성 증가로 공공 안전에 심각한 위협이 될 수 있음( Urbina et al., 2022; Sandbrink, 2023; Zou et al., 2023; Goldstein et al., 2023; Reuel et al., 2024 ).

    • 현재 대책: 안전 정렬과 엄격한 보안 감사(Mökander et al., 2024)에 의존하여 책임 있는 사용 보장을 시도. 다만 고급 역정합(inverse alignment) 기법이 가능해지면, 잘 정렬되고 감사된 모델조차도 최소 비용으로 비정렬 상태로 되돌려질 수 있어 jailbreaking의 장벽을 크게 낮추고 오픈소스 생태계의 offense-defense 균형을 붕괴시킬 수 있음( Shapiro and Siegel, 2010 ).

    • 시사점: 정밀한 미세조정 강건성(fine-tuning robustness)을 갖춘 정렬 알고리즘의 개발이 중요. 언어 모델의 탄력성 메커니즘에 대한 깊은 통찰은 untunable한 정렬 방법의 발전을 촉진하여 모델이 전체 수명주기 동안 신뢰할 수 있는 안전성을 유지하게 할 수 있음(Madiega, 2021).

  • 재정 및 감사/책임성: 본 연구는 중국 과학원(NNSFC, 62376013, 623B2003, 624B100026)과 베이징 자연과학재단(QY24041)의 지원을 받음. 본 자료의 의견, 발견, 결론 또는 권고는 저자의 것이며 자금 지원 기관의 관점을 반영하지 않을 수 있음.

  • 주의: 본 요약에서는 문헌 인용과 시사점을 간결하게 정리하였으며, 본문의 구체적 수치나 부연 설명은 원문을 참조하는 것이 좋음.

Comments