목차 1. 주요 벤치마크와 벤치마크의 한계점 2. 주요 리더보드 사이트3. 프론티어 모델별 코드 생성능력 (Python to C++ 포팅 성능 비교)4. 오픈소스 모델 포함 생성능력 비교 ( Python to C++ 포팅 성능 비교, w/ Gradio UI)5. 생성형 AI 솔루션 성능 평가를 어떻게 할 것인가? 이번 글은 모델 평가(Evaluation) 관련 챕터를 공부했던 글로 1) 주요 벤치마크들과 리더보드 사이트에 대해 공부해 본 내용 2) 실제로 다양한 closed 모델, open source 모델들의 성능을 코드 생성능력 task를 직접 시켜보며 비교해 본 내용 을 작성해보고자 한다. 1. 주요 벤치마크와 벤치마크의 한계점 1) 주요 벤치마크1)- 1. 6개 벤치마크 등장 배경 MMLU,..