상세 보기
개인정보 비식별화에 따른 인공지능 모델 성능 영향 분석 연구
Analyzing the Impact of Data Anonymization on Artificial Intelligence Model Performance
- 박소연;
- 안성진
Citations
WEB OF SCIENCE
0Citations
SCOPUS
0초록
개인정보 데이터로 학습한 인공지능 모델은 실생활에 밀접하고 유용한 기능을 제공하여 다양한 분야에 활용되고 있지만, 개인정보 유출 문제는 인공지능 서비스가 해결해야 할 중요한 과제로 대두되고 있다. 이에 따라, 각국에서는 개인정보 데이터의 인공지능 활용 시 비식별화 적용을 의무화하도록 법과 가이드라인을 마련하고 있다. 비식별화는 개인정보의 안전성을 확보하지만, 비식별화 데이터를 인공지능에 활용했을 때 해당 모델의 성능에 중대한 영향을 미칠 수 있다. 본 연구는 이러한 개인정보 보호와 인공지능 모델 성능 간 균형 문제를 해결하기 위해 데이터 비식별화 강도를 선택할 수 있는 최적의 비식별화 수준 결정 방법을 제안한다. k-익명성 프라이버시 모델을 만족하는 다양한 수준의 비식별화 데이터로 학습된 로지스틱 회귀 모델 실험에서, k=2 수준에서 모델의 정확도 지표는 원본 데이터와 유사한 약 82.1%를 보였으나, k=5로 비식별화 수준이 강화되면 약 74.9%로 급격히 감소하고 이후 일정 수준(약 74–76%)으로 유지됨을 확인하였다. 특히, 소수 클래스의 recall은 급격히 저하되었으나, 클래스 가중치 조정 및 SMOTE기법 적용 시 성능 개선이 가능하여, 불균형 데이터 상황에서 추가 보정이나 익명화 수준 조정을 통해 보완할 수 있음을 보여준다.
키워드
개인정보; 비식별화; k-익명성; 로지스틱 회귀; Personal data; De-identification; k-anonymity; Logistic regression
- 제목
- 개인정보 비식별화에 따른 인공지능 모델 성능 영향 분석 연구
- 제목 (타언어)
- Analyzing the Impact of Data Anonymization on Artificial Intelligence Model Performance
- 저자
- 박소연; 안성진
- 발행일
- 2025-08
- 유형
- Y
- 저널명
- 인터넷정보학회논문지
- 권
- 26
- 호
- 4
- 페이지
- 69 ~ 78