Evaluation 2

11. RAG, 잘 만들었는지 어떻게 알지? — RAG 평가 시스템 구축 (테스트셋 구축 및 검색/답변 평가 진행)

목차0. 들어가며1. 평가가 전부다 (Evaluations are Everything)2. 골든 테스트셋 만들기3. 검색 평가 메트릭 (Retrieval Evaluation)4. 답변 평가 메트릭 (LLM-as-a-Judge)5. 평가 결과로 본 한계6. 1편 마치며0. 들어가며지난 글에서 가상의 보험회사의 사내문서를 기반으로 답변을 할 수 있는 Rag챗봇을단순 키워드 매칭 방식부터 LangChain 기반 RAG까지 만들어봤다.그 과정에서 마지막에 한계를 볼 수 있었다. (복합질문에 답변이 어려운 것, 각 청크에 해당 인물의 풀네임이 적혀있진 않아서 답변에서도 풀네임을 갖고 오지 못한 것 등) 이번 글은 이런 RAG의 한계를 극복하기 위한 방법을 고민해나가는 글이고 1가지 질문에서 출발한다."근데 RAG..

AI 공부 2026.05.09

9. LLM 평가(Evaluation) - 벤치마크·리더보드 정리부터 9개 모델 Python -> C++ 포팅 실험까지

목차 1. 주요 벤치마크와 벤치마크의 한계점 2. 주요 리더보드 사이트3. 프론티어 모델별 코드 생성능력 (Python to C++ 포팅 성능 비교)4. 오픈소스 모델 포함 생성능력 비교 ( Python to C++ 포팅 성능 비교, w/ Gradio UI)5. 생성형 AI 솔루션 성능 평가를 어떻게 할 것인가? 이번 글은 모델 평가(Evaluation) 관련 챕터를 공부했던 글로 1) 주요 벤치마크들과 리더보드 사이트에 대해 공부해 본 내용 2) 실제로 다양한 closed 모델, open source 모델들의 성능을 코드 생성능력 task를 직접 시켜보며 비교해 본 내용 을 작성해보고자 한다. 1. 주요 벤치마크와 벤치마크의 한계점 1) 주요 벤치마크1)- 1. 6개 벤치마크 등장 배경 MMLU,..

AI 공부 2026.04.12