상세 보기
Sylender: 한국어 특성을 반영한 음절 기반 확장 트랜스포머 인코더 모델
Sylender: A Syllable-Enhanced Transformer Encoder Model Incorporating Korean Characteristics
- 허유민;
- 허지원;
- 최민준;
- 고영중
초록
음절 단위 토크나이징은 한국어의 언어적 및 문법적 정보를 잘 보존한다는 장점이 있으나, 토큰의 의미적인 정보가 서브워드 토큰보다 적어, 서브워드 방식보다 성능이 떨어지는 경향이 있다. 따라서 본 논문에서는 기존 사전학습 서브워드 모델에 음절 모듈을 추가적으로 결합한 Sylender 모델을 제안한다. Sylender는 기존 서브워드 모델의 각 레이어에 음절 기반 모듈을 병렬적으로 결합한 구조이며 서브워드 임베딩과 음절 임베딩을 함께 사용한다. 이를 통해 언어 모델의 표현력을 유지하면서도, 음절 수준의 정보를 효과적으로 결합해 한국어의 문법 구조 및 형태론적 특성을 효과적으로 반영한다. 제안된 모델은 다양한 한국어 일반 데이터에 대한 실험 결과, Sylender는 대부분의 기존 베이스라인은 물론 일부 태스크에서는 약 2.5배, 1.5배의 파라미터 크기를 가진 대형 모델보다도 우수한 성능을 보였으며, 이는 한국어의 언어적 특성을 반영한 정보 결합 방식이 성능 향상에 매우 효과적임을 입증한다.
키워드
자연어 처리; 한국어 언어모델; 음절; 토크나이저; natural language processing. korean language model; syllable; tokenizer
- 제목
- Sylender: 한국어 특성을 반영한 음절 기반 확장 트랜스포머 인코더 모델
- 제목 (타언어)
- Sylender: A Syllable-Enhanced Transformer Encoder Model Incorporating Korean Characteristics
- 저자
- 허유민; 허지원; 최민준; 고영중
- 발행일
- 2025-10
- 유형
- Y
- 저널명
- 정보과학회논문지
- 권
- 52
- 호
- 10
- 페이지
- 860 ~ 868