Sylender: 한국어 특성을 반영한 음절 기반 확장 트랜스포머 인코더 모델
Sylender: A Syllable-Enhanced Transformer Encoder Model Incorporating Korean Characteristics
  • 허유민
  • 허지원
  • 최민준
  • 고영중

초록

음절 단위 토크나이징은 한국어의 언어적 및 문법적 정보를 잘 보존한다는 장점이 있으나, 토큰의 의미적인 정보가 서브워드 토큰보다 적어, 서브워드 방식보다 성능이 떨어지는 경향이 있다. 따라서 본 논문에서는 기존 사전학습 서브워드 모델에 음절 모듈을 추가적으로 결합한 Sylender 모델을 제안한다. Sylender는 기존 서브워드 모델의 각 레이어에 음절 기반 모듈을 병렬적으로 결합한 구조이며 서브워드 임베딩과 음절 임베딩을 함께 사용한다. 이를 통해 언어 모델의 표현력을 유지하면서도, 음절 수준의 정보를 효과적으로 결합해 한국어의 문법 구조 및 형태론적 특성을 효과적으로 반영한다. 제안된 모델은 다양한 한국어 일반 데이터에 대한 실험 결과, Sylender는 대부분의 기존 베이스라인은 물론 일부 태스크에서는 약 2.5배, 1.5배의 파라미터 크기를 가진 대형 모델보다도 우수한 성능을 보였으며, 이는 한국어의 언어적 특성을 반영한 정보 결합 방식이 성능 향상에 매우 효과적임을 입증한다.

키워드

자연어 처리한국어 언어모델음절토크나이저natural language processing. korean language modelsyllabletokenizer
제목
Sylender: 한국어 특성을 반영한 음절 기반 확장 트랜스포머 인코더 모델
제목 (타언어)
Sylender: A Syllable-Enhanced Transformer Encoder Model Incorporating Korean Characteristics
저자
허유민허지원최민준고영중
발행일
2025-10
유형
Y
저널명
정보과학회논문지
52
10
페이지
860 ~ 868