목차0. 들어가며1. 평가가 전부다 (Evaluations are Everything)2. 골든 테스트셋 만들기3. 검색 평가 메트릭 (Retrieval Evaluation)4. 답변 평가 메트릭 (LLM-as-a-Judge)5. 평가 결과로 본 한계6. 1편 마치며0. 들어가며지난 글에서 가상의 보험회사의 사내문서를 기반으로 답변을 할 수 있는 Rag챗봇을단순 키워드 매칭 방식부터 LangChain 기반 RAG까지 만들어봤다.그 과정에서 마지막에 한계를 볼 수 있었다. (복합질문에 답변이 어려운 것, 각 청크에 해당 인물의 풀네임이 적혀있진 않아서 답변에서도 풀네임을 갖고 오지 못한 것 등) 이번 글은 이런 RAG의 한계를 극복하기 위한 방법을 고민해나가는 글이고 1가지 질문에서 출발한다."근데 RAG..