AS IS -> TO BE

  • 홈
  • 태그
  • 방명록

Artificial Analysis 1

9. LLM 평가(Evaluation) - 벤치마크·리더보드 정리부터 9개 모델 Python -> C++ 포팅 실험까지

목차 1. 주요 벤치마크와 벤치마크의 한계점 2. 주요 리더보드 사이트3. 프론티어 모델별 코드 생성능력 (Python to C++ 포팅 성능 비교)4. 오픈소스 모델 포함 생성능력 비교 ( Python to C++ 포팅 성능 비교, w/ Gradio UI)5. 생성형 AI 솔루션 성능 평가를 어떻게 할 것인가? 이번 글은 모델 평가(Evaluation) 관련 챕터를 공부했던 글로 1) 주요 벤치마크들과 리더보드 사이트에 대해 공부해 본 내용 2) 실제로 다양한 closed 모델, open source 모델들의 성능을 코드 생성능력 task를 직접 시켜보며 비교해 본 내용 을 작성해보고자 한다. 1. 주요 벤치마크와 벤치마크의 한계점 1) 주요 벤치마크1)- 1. 6개 벤치마크 등장 배경 MMLU,..

AI 공부 2026.04.12
이전
1
다음
더보기
프로필사진

AS IS -> TO BE

서비스 사용자와 함께 하는 팀원들에게 모두 선한 영향력을 주는 기획자를 꿈꿉니다.

  • 분류 전체보기 (75) N
    • 대학생! 핀테크 스타트업 PO가 되다 (22)
    • IT, 스타트업 쟁이의 대기업 취준일기 (13)
    • 바이브코딩 (2)
    • AI 공부 (13) N
    • SOPT(IT 연합동아리)- Side projec.. (11)
    • 개발공부 (10)
    • 디자인공부 (2)
    • 기타 일기 (2)

Tag

취준, 공채, GPT, 스타트업, 대학생, 면접왕이형, 옴스잡스, Agent, AI 공부, 핀테크, 서비스기획, PM, llm, ai, 대기업, 커리어, 소상공인, 실상, PO, 진로,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30

방문자수Total

  • Today :
  • Yesterday :
LinkedIn Profile Surfit Portfolio

Copyright © AXZ Corp. All rights reserved.

  • 서핏 포트폴리오
  • 링크드인 프로필

티스토리툴바