'Artificial Analysis' 태그의 글 목록

9. LLM 평가(Evaluation) - 벤치마크·리더보드 정리부터 9개 모델 Python -> C++ 포팅 실험까지

목차 1. 주요 벤치마크와 벤치마크의 한계점 2. 주요 리더보드 사이트3. 프론티어 모델별 코드 생성능력 (Python to C++ 포팅 성능 비교)4. 오픈소스 모델 포함 생성능력 비교 ( Python to C++ 포팅 성능 비교, w/ Gradio UI)5. 생성형 AI 솔루션 성능 평가를 어떻게 할 것인가? 이번 글은 모델 평가(Evaluation) 관련 챕터를 공부했던 글로 1) 주요 벤치마크들과 리더보드 사이트에 대해 공부해 본 내용 2) 실제로 다양한 closed 모델, open source 모델들의 성능을 코드 생성능력 task를 직접 시켜보며 비교해 본 내용 을 작성해보고자 한다. 1. 주요 벤치마크와 벤치마크의 한계점 1) 주요 벤치마크1)- 1. 6개 벤치마크 등장 배경 MMLU,..

AI 공부 2026.04.12

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

AS IS -> TO BE

Artificial Analysis 1

티스토리툴바