NLP 기반 디지털 텍스트 포렌식: 북한 지령문의 BERT 임베딩 군집·토픽 분석
An NLP-Based Digital Text Forensic Study: BERT-Driven Clustering and Topic Modeling of North Korean Espionage Directives
Citations

WEB OF SCIENCE

0
Citations

SCOPUS

0

초록

북한 지령문에 대한 법정에서의 직접적 증거 채택이 이루어지고 있는 가운데, 이러한 문서의 언어적 패턴과 구조적 특 성에 대한 체계적 분석 방법론을 모색해 볼 필요가 있다. 최근 판결문에서 공개된 북한 지령문 133건을 대상으로 자연어 처리 기법을 활용한 디지털 텍스트 포렌식을 수행하였다. TF-IDF 분석, 바이그램·트라이그램 분석, BERT 임베딩에 기반 한 K-means 클러스터링, BERTopic 모델링 등 통계적·계량적 방법론을 활용하여 북한 지령문의 언어적 특성과 구조적 패 턴을 다층적으로 분석하였다. TF-IDF 분석에서 ‘투쟁’, ‘조직’, ‘정당’, ‘회사’, ‘사업’ 등이 핵심 용어로 사용되고, 바이그램· 트라이그램 분석을 통해 ‘회사 성원’, ‘조직 사업’, ‘현장 활동가 모임’ 등이 함께 쓰이는 것을 확인하였다. K-means 클러스 터링에서는 정치·선거’, ‘교육·조직’, ‘남북·반미’, ‘정책·훈련’ 등의 클러스터로 분류되었으며, BERTopic 모델링에서는 ‘정치· 선거’, ‘조직·교육’, ‘지하당·민족’, ‘투쟁·혁명’ 등이 주요 토픽으로 나타났고, 북한 지령문의 핵심목적은 남한의 제도권 정치 개입 및 침투에 있는 것임을 시사하였다. 또한 대표적인 지령문들 간 구조적 유사성 및 일관된 표현패턴 등은 고도로 표준 화된 언어적 템플릿과 통제 매커니즘에 의해 지령문이 구조화되어 있음을 시사하였다. 기존의 디지털포렌식 분야에 디지 털 텍스트 포렌식을 활용한 자연어처리 분석방안을 제시함으로써 방법론적 확장에 기여하였다. 최근 판례에서 디지털포렌 식을 통해 북한 지령문의 무결성과 진정성을 입증하여 증거능력을 확보하는 사례가 증가하고 있는 만큼, 북한 지령문의 언어적 특성과 출처식별을 위한 과학적 기반을 제시하여 향후 국가보안법 위반 수사와 재판에서의 증거능력 및 증명력 확 보에 기여 할 수 있음을 확인하였다.

키워드

Digital Text ForensicsNorth Korean DirectivesNatural Language ProcessingTopic ModelingClustering디지털 텍스트 포렌식북한 지령문자연어처리토픽 모델링클러스터링
제목
NLP 기반 디지털 텍스트 포렌식: 북한 지령문의 BERT 임베딩 군집·토픽 분석
제목 (타언어)
An NLP-Based Digital Text Forensic Study: BERT-Driven Clustering and Topic Modeling of North Korean Espionage Directives
저자
고상협김기범
DOI
10.22798/KDFS.2025.19.3.41
발행일
2025-06
유형
Y
저널명
디지털포렌식연구
19
3
페이지
41 ~ 61