LLM 기반 마약 은어 키워드 탐지 시스템
LLM-Based Drug Term Detection in Korean Messenger Conversations

초록

디지털 소통이 일상화되면서 온라인 마약 거래가 심각한 사회 문제로 부상하고 있다. 본 연구는 온라인 대화에서 한국어 기반의 마약을 일컫는 (알려지지 않은) 은어나 변형어를 자동으로 탐지하는 LLM (Large Language Model) 기반 탐지 시스템을 제안한다. 기존의 간단한 키워드 매칭 방식이나 텍스트를 벡터공간에서 의미와 문맥 정보를 파악하는 Word2Vec 기반 단어 임베딩 기술은 지속적으로 진화하는 은어와 의도적인 변형에 대응하기 어려운 한계점이 있다. 본 연구는 단어 빈도-역문서 빈도 (TF-IDF; Term Frequency-Inverse Document Frequency) 기반으로 통계적 가중치를 통해 자동으로 변형어를 생성하고, 이를 이용해 LLM 기반의 대규모 학습 데이터셋을 구축한다. 또한 슬라이딩 윈도우 기반으로 문맥을 인식하는 아키텍처와 이중 손실 함수를 활용한 메시지 수준의 어텐션 학습 모델을 이용한 마약 은어 키워드 탐지 시스템을 제안한다. KLUE/RoBERTa와 KLUE/BERT 모델을 활용한 실험 결과, 제안 시스템은 0.9816의 정확도와 0.9763의 재현율을 달성하였다.

키워드

Drug Slang DetectionSocial Media MiningLarge Language Model
제목
LLM 기반 마약 은어 키워드 탐지 시스템
제목 (타언어)
LLM-Based Drug Term Detection in Korean Messenger Conversations
저자
김민석구형준
DOI
10.13089/JKIISC.2025.35.6.1611
발행일
2025-12
유형
Y
저널명
정보보호학회논문지
35
6
페이지
1611 ~ 1625