[논문리뷰] BitAbuse: A Dataset of Visually Perturbed Texts for Defending Phishing Attacks (NAACL 2025 Findings)

7 minute read

요약: 본 연구에서는 시각적으로 변형된 텍스트를 포함한 실제 피싱 사례로 구성된 BitAbuse 데이터셋을 제안하며, 이를 통해 언어 모델의 성능을 향상시키고 적대적 공격 방어 연구를 지원하고자 한다.

1 Introduction

사회 공학 공격은 기밀 정보를 유출하기 위해 피해자의 심리적 취약점을 악용
- 공격 유형: 피싱, 스팸, 사전 설정, 미끼, 밀착 접근 등
피싱은 이메일 및 SMS와 같은 텍스트를 통해 피해자를 공격
- 보안 시스템을 우회하기 위해 시각적으로 변형된(VP) 텍스트 사용
- VP 텍스트 예: ‘Bitcoin’ ➔ ‘ßitcöın’
VP 텍스트 기반 피싱 공격은 원본 텍스트로 복원함으로써 방지 가능
- 연구들은 대개 복원 방법 개발에 집중
- 비현실적인 고정 부분을 변형하는 Viper 같은 모델의 한계 존재
LEGIT 연구는 가독성을 고려한 VP 텍스트 데이터셋을 생성
- 현실 세계의 VP 텍스트 연구는 여전히 부족
합성 데이터셋을 기반으로 한 방어 시스템 구축은 실제와의 격차로 위험할 수 있음
- 해결책으로 실제 VP 텍스트와 합성 텍스트 혼합 제안
새로운 데이터셋 BitAbuse 제안
- 262,258개의 피싱 관련 이메일을 기반으로 원시 말뭉치 생성
- 26,591개의 VP 문장 및 298,989개의 비 VP 영어 문장 포함
- 세 가지 데이터셋(BitCore, BitViper, BitAbuse) 생성
- 파일럿 연구를 통해 데이터셋 특성 분석
피싱 공격 데이터셋 공개함

VP 텍스트 관련 연구에서는 스팸 이메일로 전달되기 때문에 충분한 데이터를 얻기 어려움.
실제 피싱 공격 상황을 반영한 데이터셋 부족.
기존 데이터셋은 특정 조건이나 환경에서만 유효함 (예: 국제화된 도메인 이름).
전통적인 연구는 VP 텍스트 복원 방법을 위한 데이터 통합 절차를 포함함.
두 가지 주목할 만한 VP 텍스트 데이터 통합 연구:
- TextBugger:
  - 사전 정의된 호모글리프 쌍과 변형 방법을 사용하여 VP 텍스트 생성.
  - 텍스트에서 문자를 선택하고 VP 문자로 교체하여 LMs의 성능 저하를 목표로 함.
  - 감정 분석이나 악성 콘텐츠 탐지와 같은 보안 민감 작업에서 취약점을 드러내는 데 유용함.
- Viper:
  - 호모글리프를 검색하고 임베딩 기술에 기반하여 VP 텍스트 생성.
  - 텍스트의 문자를 VP 문자로 교체하고 교체 확률에 기반하여 시각적 방해 유도.
VP 텍스트 복원 관련 전통적인 방법:
- SimChar DB 기반, OCR 기반, 철자 검사기 기반, LMs 기반 방법을 사용.
- SimChar DB 방식은 Unicode 문자 집합에서 호모글리프를 자동 수집하여 VP 문자를 감지하고 정해진 복원 표를 사용하여 복원.
- OCR 기반 방법은 IDNs에 VP 문자를 삽입하여 사용자를 속이는 피싱 공격 탐지.
- 철자 검사기를 사용하여 소셜 네트워크에 분포된 악성 텍스트를 복원하는 방식.
- 두 개의 LMs(BERT 및 GPT)를 결합한 복원 전략도 고려됨.
기존 연구의 공통된 단점:
- 피싱 공격 복원 성능을 평가하는 데이터셋에 실제 VP 텍스트가 포함되지 않음.
- 이로 인해 실제 상황에서 복원 성능이 과대/과소 평가되거나 불안정한 사전 학습 LM 모델이 생성될 수 있음.
본 연구에서는 bitcoinabuse[.]com에서 사용된 VP 텍스트를 수집하여 피싱 공격 연구에 기여할 수 있는 새로운 데이터셋을 생성함.

3 BitAbuse

피싱 공격에 사용된 VP 텍스트를 수집하기 위해 bitcoinabuse[.]com에서 이메일 데이터를 수집함.
Bitcoin Abuse 웹사이트는 비트코인 사기와 관련된 콘텐츠를 전 세계 사용자가 공유하는 플랫폼임.
사용자들이 개인정보를 마스킹한 이메일을 직접 업로드하므로 안전하게 데이터를 수집할 수 있음.
총 262,258개의 피싱 관련 이메일이 2017년 5월 16일부터 2022년 1월 15일까지 수집됨.
영어 텍스트와 관련된 VP 텍스트 데이터셋 구축을 목표로 하였으나 비영어 텍스트도 포함되어 있어 관련 없는 이메일 제거가 필요함.
BERT 모델을 사용하여 영어 텍스트 분류기를 자동으로 생성하고, 16,598개의 이메일 샘플을 수동으로 라벨링하여 훈련함.
최종적으로 178,054개의 영어 이메일이 남아 후속 처리를 진행함.
원본 텍스트를 최대 길이 512로 나누어 326,732개의 문장 생성.
불필요한 문자 시퀀스 제거를 위해 정규 표현식 사용.
326,732개의 문장에 대해 VP 텍스트의 수동 주석 작업 진행함.
비효율적인 수작업을 줄이기 위해 VP 단어에서 비-VP 단어 라벨을 생성하여 적용함.
불필요한 1,152개의 문장도 제거함.
최종적으로 BitCore, BitViper, BitAbuse 데이터셋이 만들어짐.

4 Experimental Settings

실험 데이터베이스 및 방법론
- SimChar DB (Suzuki et al., 2019), OCR (Sawabe et al., 2019), Spell Checker (Imam et al., 2022), Character BERT 기반 (El Boukkouri et al., 2020), GPT-4o mini 기반 방법 (OpenAI, 2023) 사용
- 세 가지 평가 측정 기준: Word Level Accuracy, Word Level Jaccard, BLEU 사용
복원 성능 평가
- 다섯 개의 다른 방법으로 복원 성능 평가:
  - SimChar DB 기반: 각 문자에 대한 알파벳 동형자를 확인하고 복원
  - OCR 기반: 각 문자에 OCR 적용 후 가장 높은 확률의 문자 선택
  - Spell Checker 기반: 문장을 개별 단어 단위로 분할한 후 Levenshtein Distance를 사용하여 복원
  - Character BERT: 문자 수준에서 토큰 시퀀스를 처리하여 문맥을 기반으로 복원
  - GPT-4o mini: 최신 대형 언어 모델 성능 평가
Character BERT 설정
- 학습률: 5×10⁻⁵, 배치 크기: 32, 학습 에폭: 10
- AdamW 옵티마이저 사용: β1 = 0.9, β2 = 0.999, weight_decay = 0
- 입력 및 출력 모두 문자 수준 토큰 시퀀스
GPT-4o mini 모델 에세스
- OpenAI의 추론 API 통해 수행, 프롬프트 설계
평가 방법
- Word Level Accuracy: 복원된 단어가 각 단어 위치에서 일치하는지 평가
- Word Level Jaccard: 예측된 문장과 레이블된 문장에서 단어 집합을 형성하여 교집합과 합집합의 비율 계산
- BLEU 점수: 예측된 문장과 레이블된 문장의 n-그램 정밀도 계산
데이터 분할
- BitAbuse 데이터셋에서 60%, 20%, 20%를 각각 훈련, 검증, 테스트에 사용
- 각 방법의 성능은 테스트 세트에서 평가하고 10번의 랜덤 훈련 및 테스트 분할 반복하여 평균 성능 측정

5 Experimental Results

탐색적 데이터 분석: VP 단어, VP 문자 및 비율에 대한 분석을 수행하여 피싱 공격 방어 방법론 개발에 도움을 주었다.

VP 문장 히스토그램: BitCore, BitViper, BitAbuse 데이터셋에서 문장 길이에 따른 VP 문자의 발생 비율을 보여주는 히스토그램 제공.

VP 문자-단어 연관 그래프: Yifan Hu 알고리즘을 사용하여 VP 문자와 단어의 연관성 클러스터링을 시각화, 주요 클러스터의 중심에 모음이 위치.

복원 성능 비교: SimChar DB, OCR, Spell Checker, Character BERT, GPT-4o mini 기반 방법들의 복원 성능을 평가한 결과, Character BERT 기반 방법이 다른 방법들보다 우수함.

VP 단어 복원 오류: Character BERT 기반 방법이 연속된 VP 문자가 있을 경우 복원에 실패하는 경우 증가.

단어 수준 정확도 평가: VP 문자의 비율에 따른 세 가지 데이터셋에서 Character BERT 기반 방법의 성능 평가, BitCore 데이터셋에서 가장 강력한 성능을 보임.

훈련량에 따른 성능 변화: 1% 또는 5%의 낮은 훈련 VP 문장 비율에서 BitViper 및 BitAbuse 데이터셋에 대한 성능 저하가 관찰됨.
모델의 일반화 능력: 낮은 훈련 데이터 비율에도 불구하고 모델이 상대적으로 잘 복원할 수 있으며, 이는 빠른 훈련을 통한 실용적 이점을 제공함.
추가 실험 결과 요약: Character BERT 기반 방법이 상대적으로 우수한 성능을 보이고, 충분한 VP 문장 수가 안정적인 모델 구축에 필요하다는 결론.

6 Discussion

다양한 복원 방법의 성능을 VP 문자의 비율에 따라 비교한 결과:
- Character BERT 기반 방법이 VP 문자 비율 증가에 따라 효과적으로 성능을 향상.
- Spell Checker 기반 방법은 VP 문자 비율 증가에 따라 성능 급락, 문맥 정보를 활용하지 못함.
- GPT-4o mini 기반 방법은 생성 모델로서 입력과 출력 문장 간의 순서 및 인덱스를 유지하지 못해 성능이 저하됨.
Jaccard와 BLEU 성능 평가:
- Jaccard 성능은 Word Level Accuracy와 밀접히 연결되어 있음.
- BLEU 점수는 문맥 정확성에 더 민감하여 구조와 의미를 보존하는 간단한 방법이 더 높은 점수를 기록할 수 있음.
복원 방법 5개를 세 가지 데이터셋에서 비교한 결과:
- Character BERT 기반 방법이 다른 방법들보다 명확하게 우수한 성능을 보임.
- SimChar DB 기반 방법의 한계: 단일 VP 문자에 대해 하나의 비 VP 문자만 출력 가능.
각 방법의 VP 문자 복원 능력:
- Character BERT 기반 방법은 문맥을 직접 학습하여 고속 복원 가능.
- GPT-4o mini는 VP 문자가 다수인 경우 저조한 성능을 보임.
- Safety feature로 인해 비윤리적 콘텐츠에 대해 오류 응답 생성.
BitCore 데이터셋에서 거의 100% 정확도를 기록한 Character BERT 기반 방법:
- 높은 성능을 바탕으로 디지털 포렌식이나 보안 메시지 시스템에서의 활용 가능성 제안.
- 이 모델이 보안 통신에서 중요한 도전 과제를 해결하는 데 기여할 수 있음.

7 Conclusion

연구를 통해 세 가지 VP 텍스트 데이터셋인 BitCore, BitViper, BitAbuse를 생성함.
BitCore와 BitViper는 현저하게 다른 특성을 가지고 있으며, LMs 기반의 복원 방법은 모든 데이터셋에서 강력한 내구성과 잠재력을 나타냄.
BitAbuse는 325,580개의 VP 문장을 사용한 사전 훈련 모델로 다운로드 가능함.
미래 연구에서는 OCR과 Character BERT를 결합한 하이브리드 접근 방식 탐색 필요.
LMs의 방대한 데이터 소비 문제를 해결하기 위해 LMs 내에서 데이터를 내부화할 수 있음.
키워드에도 특정한 경향을 두고, 실제 피싱 공격에서 활용할 수 있는 경량 yet 정확한 LMs 개발 가능성 있음.
BitAbuse 모델의 제로샷 성능 검증도 필요함.

8 Limitations

본 연구의 VP 텍스트 복원 실험은 추가적인 복원 방법을 포함하지 않아 연구 범위를 초과하지 않기 위해 진행됨.
Character BERT 기반 방법과 다른 LM 기반 복원 방법 간 성능 비교를 수행하지 않아 Character BERT의 우수성을 평가하기 어려움.
BitAbuse 데이터셋은 비트코인 사기에 관한 데이터만 포함되어 있어 다양한 피싱 공격 시나리오를 반영하는 데 한계가 있음.
시간이 지남에 따라 피싱 공격이 더 다양하고 복잡해질 가능성이 있으며, 이러한 다양성을 반영하지 못하면 연구의 일반화 가능성이 저하될 수 있음.
연구 목적을 위해 생성된 데이터셋이 비전문가에 의해 피싱 공격 학습 및 실행에 악용될 위험 존재.
BitAbuse 데이터셋의 오용으로 인해 피싱 공격이 정교해져 피해자가 증가할 가능성 있음.
데이터셋과 모델은 공개되어 있지만 연구 외의 목적으로 사용되지 않아야 하며, 기술적 오용에 대한 명확한 규제가 부족함.

9 Ethics Statement

본 연구에서 생성된 데이터셋은 피싱 공격 방어를 위한 연구 목적으로 설계됨.
그러나, 비전문가들이 이 데이터셋을 사용하여 피싱 공격 방법을 학습하고 실행할 위험이 존재함.
Dark web에서 생성된 WormGPT와 Mithril Security에서 출시된 PoisonGPT와 같은 악성 툴 개발에 사용될 수 있음.
이로 인해 피싱 공격이 더욱 정교해지고 피해자가 증가할 수 있음.
이러한 데이터셋의 오용으로 인한 피해는 법적으로 책임을 물을 수 없음.
많은 국가에서 데이터셋 오용에 대한 명확한 규제가 부재하며, 세심한 고려와 관찰이 필요함.
이 논문에서 사용된 데이터셋과 모델은 공개되어 있으나, 연구 목적 외로 사용하지 않아야 함.

독자 의견

본 논문은 본인이 작성한 논문이다.
데이터셋을 소개하는데 중점을 두었기 때문에 테스크를 해결하는 방법론들은 언어모델을 단순하게 사용하는 것으로 제한하였다.
추후 연구가 진행된다면 문자의 모양 정보 등을 추가로 활용한 멀티모달 방법론을 적용하여 성능을 높일 수 있을 것이다.
하지만 멀티모달 방법론이 아니더라도 LLM을 사용한다면 (비용과 상관 없이) 충분히 높은 성능을 달성할 수 있음을 확인했다.

Hanyong Lee

[논문리뷰] BitAbuse: A Dataset of Visually Perturbed Texts for Defending Phishing Attacks (NAACL 2025 Findings)

1 Introduction

3 BitAbuse

4 Experimental Settings

5 Experimental Results

6 Discussion

7 Conclusion

8 Limitations

9 Ethics Statement

독자 의견

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)

Hanyong Lee

1 Introduction

2 Related Work

3 BitAbuse

4 Experimental Settings

5 Experimental Results

6 Discussion

7 Conclusion

8 Limitations

9 Ethics Statement

독자 의견

Comments

You May Also Enjoy

[논문리뷰] Native Sparse Attention- Hardware-Aligned and Natively Trainable Sparse Attention (ACL 2025)

[논문리뷰] Language Models Resist Alignment- Evidence From Data Compression (ACL 2025)

[논문리뷰] What Can Game Theory Tell Us about an AI ‘Theory of Mind’? (Games 2022)

[논문리뷰] Fairness through Difference Awareness- Measuring Desired Group Discrimination in LLMs (ACL 2025)