상세 보기
메신저 대화 트리아지를 위한 화자 스크리닝 연구 - 머신러닝과 딥러닝 임베딩 기반 접근 -
Speaker Screening for Messenger Conversation Triage - Machine Learning and Deep Learning Embedding-Based Approaches -
- 고상협;
- 김기범
초록
디바이스에서 확보되는 메신저 대화는 수사현장에서 검토 부담을 가중시킬 수 있는 증거 유형이다. 본 연구는 발화자가 특정되지 않은 메신저 대화 증거를 가정하여, 수사 초기 단계에서 화자별 분석 우선순위를 설정하기 위한 AI 기반 트리아지 스크리닝 기법을 제안하고 그 유효성을 평가하였다. 국립국어원 메신저 말뭉치에서 총 3,729개 세션과 200,943개의 쿼리 발화를 분석에 활용했다. 통계적 머신러닝 기법인 Char N-gram SVM과 딥러닝 임베딩 방식인 SBERT 모델을 주요 비교 대상으로 하였으며, Word N-gram Logistic Regression과 Dummy Baseline을 보조 기준선으로 포함하였다. 각 세션을 support 구간과 query 구간으로 나눈 뒤, 후보 화자 수(N)에 따라 2인, 3인, 4인 이상으로 구간을 분류하여 Recall@k와 Macro-F1 값을 산출했다. 실험 결과, 공개 메신저 말뭉치와 미세조정 없는 조건 하에서 Char N-gram SVM이 Recall@k 기준 상대적으로 높은 성능을 보였다. 트리아지 모델의 결과는 분석 우선순위를 정하는 참고지표로 활용할 수 있다. 수사현장에서는 계정 정보, 접속 기록, 기기 점유 관계 등 다른 객관적 증거들과 교차 검증이 병행되어야 할 것이다.
키워드
수사 트리아지; 화자 스크리닝; 인공지능; 디지털포렌식; 메신저 대화; investigative triage; speaker screening; artificial intelligence; digital forensics; messenger conversation
- 제목
- 메신저 대화 트리아지를 위한 화자 스크리닝 연구 - 머신러닝과 딥러닝 임베딩 기반 접근 -
- 제목 (타언어)
- Speaker Screening for Messenger Conversation Triage - Machine Learning and Deep Learning Embedding-Based Approaches -
- 저자
- 고상협; 김기범
- 발행일
- 2026-04
- 유형
- Y
- 저널명
- 범죄수사학연구
- 권
- 12
- 호
- 1
- 페이지
- 307 ~ 326