메신저 대화 트리아지를 위한 화자 스크리닝 연구 - 머신러닝과 딥러닝 임베딩 기반 접근 -

Speaker Screening for Messenger Conversation Triage - Machine Learning and Deep Learning Embedding-Based Approaches -

초록

디바이스에서 확보되는 메신저 대화는 수사현장에서 검토 부담을 가중시킬 수 있는 증거 유형이다. 본 연구는 발화자가 특정되지 않은 메신저 대화 증거를 가정하여, 수사 초기 단계에서 화자별 분석 우선순위를 설정하기 위한 AI 기반 트리아지 스크리닝 기법을 제안하고 그 유효성을 평가하였다. 국립국어원 메신저 말뭉치에서 총 3,729개 세션과 200,943개의 쿼리 발화를 분석에 활용했다. 통계적 머신러닝 기법인 Char N-gram SVM과 딥러닝 임베딩 방식인 SBERT 모델을 주요 비교 대상으로 하였으며, Word N-gram Logistic Regression과 Dummy Baseline을 보조 기준선으로 포함하였다. 각 세션을 support 구간과 query 구간으로 나눈 뒤, 후보 화자 수(N)에 따라 2인, 3인, 4인 이상으로 구간을 분류하여 Recall@k와 Macro-F1 값을 산출했다. 실험 결과, 공개 메신저 말뭉치와 미세조정 없는 조건 하에서 Char N-gram SVM이 Recall@k 기준 상대적으로 높은 성능을 보였다. 트리아지 모델의 결과는 분석 우선순위를 정하는 참고지표로 활용할 수 있다. 수사현장에서는 계정 정보, 접속 기록, 기기 점유 관계 등 다른 객관적 증거들과 교차 검증이 병행되어야 할 것이다.

키워드

수사 트리아지화자 스크리닝인공지능디지털포렌식메신저 대화investigative triagespeaker screeningartificial intelligencedigital forensicsmessenger conversation
제목
메신저 대화 트리아지를 위한 화자 스크리닝 연구 - 머신러닝과 딥러닝 임베딩 기반 접근 -
제목 (타언어)
Speaker Screening for Messenger Conversation Triage - Machine Learning and Deep Learning Embedding-Based Approaches -
저자
고상협김기범
발행일
2026-04
유형
Y
저널명
범죄수사학연구
12
1
페이지
307 ~ 326