상세 보기
초록
거대 언어 모델은 일반 도메인 데이터에 기반해 학습되어서 정보 밀도가 높고 전문 용어가 많은 전문 도메인에서 한계를 보인다. 검색 증강 생성은 외부 지식을 참조함으로써 답변의 정확성과 신뢰성을 높이며, 이는 특히 사전학습 데이터가 부족한 전문 도메인에서 더욱 효과적이다. 그러나 한국어 전문 도메인을 대상으로 한 공개 데이터셋은 여전히 부족하므로, 이에 특화된 검색 증강 생성 데이터셋이 요구된다. 본 논문에서는 한국어 검색 증강 생성을 위한 과학·기술 논문 기반의 새로운 한국어 검색 증강 생성 데이터셋을 제안한다. 기존의 문서-질의 기반 데이터를 전처리하여 검색 가능한 코퍼스를 구성하고, 전문 도메인 활용에 적합하도록 핵심 구절 및 핵심 문장을 추출하였다. 또한 구축된 데이터셋에 대해 다각도에서 정량적 품질 평가를 진행하였다. 본 데이터셋은 한국어 검색 증강 생성 시스템에서 과학·기술 논문이라는 전문 도메인 특성을 반영함으로써 검색 증강 생성의 중요한 기반을 제공한다.
키워드
거대 언어 모델; 검색 증강 생성; 정보 검색; 키워드 추출; 응답 생성 평가; large language model; retrieval-augmented generation; information retrieval; keyphrase extraction; response generation evaluation
- 제목
- 한국어 논문 기반 검색 증강 생성 데이터셋
- 제목 (타언어)
- Korean Paper Based Retrieval Augmented Generation Dataset
- 저자
- 한준호; 최민준; 김근하; 고영중
- 발행일
- 2026-03
- 유형
- Y
- 저널명
- 정보과학회논문지
- 권
- 53
- 호
- 3
- 페이지
- 205 ~ 216