한국어 논문 기반 검색 증강 생성 데이터셋
Korean Paper Based Retrieval Augmented Generation Dataset

초록

거대 언어 모델은 일반 도메인 데이터에 기반해 학습되어서 정보 밀도가 높고 전문 용어가 많은 전문 도메인에서 한계를 보인다. 검색 증강 생성은 외부 지식을 참조함으로써 답변의 정확성과 신뢰성을 높이며, 이는 특히 사전학습 데이터가 부족한 전문 도메인에서 더욱 효과적이다. 그러나 한국어 전문 도메인을 대상으로 한 공개 데이터셋은 여전히 부족하므로, 이에 특화된 검색 증강 생성 데이터셋이 요구된다. 본 논문에서는 한국어 검색 증강 생성을 위한 과학·기술 논문 기반의 새로운 한국어 검색 증강 생성 데이터셋을 제안한다. 기존의 문서-질의 기반 데이터를 전처리하여 검색 가능한 코퍼스를 구성하고, 전문 도메인 활용에 적합하도록 핵심 구절 및 핵심 문장을 추출하였다. 또한 구축된 데이터셋에 대해 다각도에서 정량적 품질 평가를 진행하였다. 본 데이터셋은 한국어 검색 증강 생성 시스템에서 과학·기술 논문이라는 전문 도메인 특성을 반영함으로써 검색 증강 생성의 중요한 기반을 제공한다.

키워드

거대 언어 모델검색 증강 생성정보 검색키워드 추출응답 생성 평가large language modelretrieval-augmented generationinformation retrievalkeyphrase extractionresponse generation evaluation
제목
한국어 논문 기반 검색 증강 생성 데이터셋
제목 (타언어)
Korean Paper Based Retrieval Augmented Generation Dataset
저자
한준호최민준김근하고영중
DOI
10.5626/JOK.2026.53.3.205
발행일
2026-03
유형
Y
저널명
정보과학회논문지
53
3
페이지
205 ~ 216