RAG 기반 시스템의 신뢰성과 Jailbreaking 보안 취약성 분석
Reliability of RAG Systems and an Analysis of Jailbreaking Security Vulnerabilities

초록

본 연구는 RAG(Retrieval-Augmented Generation) 기반 LLM이 다양한 jailbreak 공격에 대해 어떠한 보안 특성을 보이는지를 체계적으로 평가하였다. 총 135회의 실험을 수행한 결과, Universal jailbreak 프롬프트의 성공률은 12%로 일반 LLM 대비 낮아 강한 방어성을 보였다. 그러나 type-specific 공격의 성공률은 50%에 달해 RAG 특유의 구조적 취약성이 확인되었다. 특히 ‘규정 허점 악용’ 공격은 100% 성공률을 보이며 RAG가 문서에 존재하지 않는 정보 처리(absence reasoning)에 취약함을 보여주었다. 또한 Research Pretext 공격은 60%의 성공률을 기록해, 연구·보안 목적을 가장한 요청이 RAG 안전 필터를 우회할 수 있음을 나타냈다. 이 결과는 RAG 시스템이 일반적인 jailbreak 전략에는 비교적 강하지만, 도메인 특화된 공격에는 쉽게 노출될 수 있는 이중적 보안 특성을 갖는다는 점을 시사한다.

키워드

RAG보안 취약성JailbreakingLLM 안전성Loophole Exploitation규정 허점 악용보안 평가: RAGSecurity VulnerabilityJailbreakingLLM SafetyLoophole ExploitationSecurity Evaluation
제목
RAG 기반 시스템의 신뢰성과 Jailbreaking 보안 취약성 분석
제목 (타언어)
Reliability of RAG Systems and an Analysis of Jailbreaking Security Vulnerabilities
저자
양혜지오하영
DOI
10.23152/JATC.2026.05.01.209
발행일
2026-02
유형
Y
저널명
미래기술융합논문지
5
1
페이지
209 ~ 214