메타데이터 기반 SLM-RAG 산업 표 데이터 QA 프레임워크
Metadata-Enhanced RAG with SLMs for Industrial Tabular QA

초록

산업 디지털 전환이 가속화되면서 제조·에너지 분야의 복잡한 데이터를 대상으로 정확한 검색증강생성(RAG)의 필요성이 커지고 있다. 그러나 기존 연구는 대규모 언어모델(LLM)과 범용 데이터셋에 과도하게 의존해, 스키마와 메타데이터가 핵심적인 고구조화 산업 환경에는 적용에 한계가 있다. 본 연구는 산업·에너지 도메인의 스키마 기반 표 형식 데이터를 대상으로 RAG 성능을 체계적으로 평가한다. 우리는 NREL FIED 데이터셋을 활용해 2,510개 QA 벤치마크를 구축하고, Phi-3-Mini와 Gemma-2B-IT 같은 소형 언어모델(SLM)과 GPT-4o, Claude-3.5-Sonnet 등 LLM을 비교하였다. Baseline-RAG과 스키마 의미를 메타데이터로 포함한 Meta-RAG 전반에서 메타데이터 통합은 답변 신뢰도와 문맥 정밀도를 향상시키며, 경량 SLM에서도 뚜렷한 성능 개선을 보였다.이러한 결과는 SLM 기반 RAG 파이프라인의 실질적인 활용 가능성을 보여주며, 실제 제조·에너지 응용 환경에서 확장 가능하고 비용 효율적인 시스템 구축을 위해 효과적인 메타데이터 및 스키마 설계가 중요함을 시사한다.

키워드

Retrieval-Augmented GenerationSmall Language ModelsQA BenchmarkTabular Data검색 증강 생성소형 언어모델QA 벤치마크표 형식 데이터
제목
메타데이터 기반 SLM-RAG 산업 표 데이터 QA 프레임워크
제목 (타언어)
Metadata-Enhanced RAG with SLMs for Industrial Tabular QA
저자
손동영성연준오하영
발행일
2026-03
유형
Y
저널명
한국정보통신학회논문지
30
3
페이지
384 ~ 390