DynaMix-T: 텍스트 표현 학습 성능 향상을 위한 동적 보간 기법의 제안

DynaMix-T: Dynamic Interpolation for Text Representation Learning

초록

전통적인 보간 기반 데이터 증강 기법은 고정된 혼합 비율에 의존하여 텍스트의 의미적 관계를 간과하는 경향이 있다. 이는 특히 감정이 상반되는 문장을 혼합할 때 학습에 방해가 되는 무의미한 노이즈를 생성하는 문제를 야기한다. 본 논문에서는 의미적 유사도와 일관성 정규화를 기반으로 하는 다층위 보간 기법인 DynaMix-T를 제안한다. DynaMix-T는 문장 간 의미적 거리를 계산하여 동적으로 혼합 비율을 조정하며, 임베딩 층, 은닉 층, 출력 층에서의 계층별 혼합을 통해 의미를 보존한다. 또한 표현 일관성과 예측 일관성 손실을 도입함으로써 보간된 표현의 안정성을 보장한다. SST-2 감정 분류 벤치마크에서 DynaMix-T는 기존 기본 BERT 대비 +1.26%의 정확도 향상을 달성했으며 Few-shot(소수 샷, 25% 데이터)환경에서는 ++1.83%p의 성능 개선을 기록하였다. 제거 실험에서는 동적 λ 조정이 고정 λ 대비 ++16.04%p의 정확도 향상을 가져오는 것으로 나타나, 의미 인식 증강의 중요성을 입증하였다. Few-shot 환경(25% 데이터)에서 전체 데이터 학습 대비 96.3%의 성능을 달성하여, 데이터 효율적인 자연어 처리 모델 개발에 기여한다.

키워드

Text AugmentationDynamic InterpolationSemantic SimilarityPre-trained Language ModelsNatural Language Processing텍스트 데이터 증강동적 보간의미 유사도사전학습 언어모델자연어 처리
제목
DynaMix-T: 텍스트 표현 학습 성능 향상을 위한 동적 보간 기법의 제안
제목 (타언어)
DynaMix-T: Dynamic Interpolation for Text Representation Learning
저자
이현민박지원오하영
발행일
2026-02
유형
Y
저널명
한국정보통신학회논문지
30
2
페이지
224 ~ 235