'Evaluation' 태그의 글 목록

Evaluation 2

11. RAG, 잘 만들었는지 어떻게 알지? — RAG 평가 시스템 구축 (테스트셋 구축 및 검색/답변 평가 진행)

목차0. 들어가며1. 평가가 전부다 (Evaluations are Everything)2. 골든 테스트셋 만들기3. 검색 평가 메트릭 (Retrieval Evaluation)4. 답변 평가 메트릭 (LLM-as-a-Judge)5. 평가 결과로 본 한계6. 1편 마치며0. 들어가며지난 글에서 가상의 보험회사의 사내문서를 기반으로 답변을 할 수 있는 Rag챗봇을단순 키워드 매칭 방식부터 LangChain 기반 RAG까지 만들어봤다.그 과정에서 마지막에 한계를 볼 수 있었다. (복합질문에 답변이 어려운 것, 각 청크에 해당 인물의 풀네임이 적혀있진 않아서 답변에서도 풀네임을 갖고 오지 못한 것 등) 이번 글은 이런 RAG의 한계를 극복하기 위한 방법을 고민해나가는 글이고 1가지 질문에서 출발한다."근데 RAG..

AI 공부 2026.05.09

9. LLM 평가(Evaluation) - 벤치마크·리더보드 정리부터 9개 모델 Python -> C++ 포팅 실험까지

목차 1. 주요 벤치마크와 벤치마크의 한계점 2. 주요 리더보드 사이트3. 프론티어 모델별 코드 생성능력 (Python to C++ 포팅 성능 비교)4. 오픈소스 모델 포함 생성능력 비교 ( Python to C++ 포팅 성능 비교, w/ Gradio UI)5. 생성형 AI 솔루션 성능 평가를 어떻게 할 것인가? 이번 글은 모델 평가(Evaluation) 관련 챕터를 공부했던 글로 1) 주요 벤치마크들과 리더보드 사이트에 대해 공부해 본 내용 2) 실제로 다양한 closed 모델, open source 모델들의 성능을 코드 생성능력 task를 직접 시켜보며 비교해 본 내용 을 작성해보고자 한다. 1. 주요 벤치마크와 벤치마크의 한계점 1) 주요 벤치마크1)- 1. 6개 벤치마크 등장 배경 MMLU,..

AI 공부 2026.04.12

AS IS -> TO BE

서비스 사용자와 함께 하는 팀원들에게 모두 선한 영향력을 주는 기획자를 꿈꿉니다.

소상공인, 대학생, PM, 커리어, 면접왕이형, GPT, 취준, 실상, 공채, 대기업, 옴스잡스, llm, ai, 핀테크, 진로, 서비스기획, Agent, PO, 스타트업, AI 공부,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Evaluation 2

티스토리툴바