LLMLLM 기초 · 4기초

LLM 평가와 선택 기준 — 어떤 모델을 써야 할까?

LLM벤치마크모델선택비용성능평가

"GPT-4가 제일 좋은 거 아닌가요?"

가장 비싸고 강력한 모델이 항상 최선일까요? 상황에 따라 답이 달라집니다. 간단한 분류 작업에 GPT-4o를 쓰는 건 볼펜 하나 사러 트럭을 몰고 가는 것과 같습니다.

좋은 모델 선택은 내 문제에 맞는 모델을 고르는 것입니다.


LLM 평가의 세 축

flowchart TB
    subgraph EVAL["LLM 평가 기준"]
        direction TB
        P["🧠 성능\n(얼마나 잘 하나)"]
        C["💰 비용\n(얼마나 드나)"]
        S["⚡ 속도\n(얼마나 빠른가)"]
    end

    P <-->|"트레이드오프"| C
    C <-->|"트레이드오프"| S
    P <-->|"트레이드오프"| S

세 가지를 동시에 최대화할 수는 없습니다. 프로젝트의 우선순위에 따라 균형을 잡는 것이 핵심입니다.


주요 벤치마크 지표

MMLU (Massive Multitask Language Understanding)

57개 학문 분야의 객관식 문제 정답률. 일반 지식·추론 능력을 측정합니다.

HumanEval

코딩 문제를 주고 정상 작동하는 코드를 작성하는 비율. 개발 보조 도구 평가에 활용합니다.

MT-Bench / Chatbot Arena

실제 대화 품질을 사람이 직접 평가하거나 더 강력한 LLM이 평가하는 방식입니다.

flowchart LR
    subgraph BENCH["벤치마크 유형"]
        direction TB
        B1["MMLU\n지식·추론"]
        B2["HumanEval\n코딩 능력"]
        B3["MT-Bench\n대화 품질"]
        B4["MATH\n수학 추론"]
        B5["TruthfulQA\n사실 정확성"]
    end

    B1 & B2 & B3 & B4 & B5 --> SCORE["종합 능력치"]

벤치마크의 함정

높은 벤치마크 점수가 실제 업무에서의 우수함을 보장하지는 않습니다. 모델이 벤치마크 문제를 학습 데이터에 포함시켜 '외워서' 높은 점수를 받는 벤치마크 오염 문제가 알려져 있습니다.


비용 구조 이해하기

API 기반 LLM은 토큰 단위로 과금됩니다.

flowchart LR
    subgraph COST["API 비용 = 입력 토큰 × 입력단가 + 출력 토큰 × 출력단가"]
        IN["입력 토큰\n(프롬프트 + 컨텍스트)"]
        OUT["출력 토큰\n(모델 응답)"]
    end

    IN -->|"일반적으로 저렴"| TOTAL["총 비용"]
    OUT -->|"입력의 3~5배 비쌈"| TOTAL

모델별 비용 비교 (2024년 기준, 1M 토큰당 USD)

모델입력출력특징
GPT-4o$2.5$10최고 성능
GPT-4o mini$0.15$0.6가성비
Claude 3.5 Sonnet$3$15코딩·분석 강점
Claude 3 Haiku$0.25$1.25빠르고 저렴
Gemini 1.5 Flash$0.075$0.3초저가

용도별 모델 선택 가이드

flowchart TD
    START["어떤 작업인가?"] --> Q1{"복잡한 추론\n필요한가?"}

    Q1 -->|"Yes"| Q2{"코딩·분석\n중심인가?"}
    Q1 -->|"No"| Q3{"대량 처리\n필요한가?"}

    Q2 -->|"Yes"| R1["Claude 3.5 Sonnet\nGPT-4o"]
    Q2 -->|"No, 창의적 작성"| R2["GPT-4o\nGemini 1.5 Pro"]

    Q3 -->|"Yes, 빠른 응답"| R3["GPT-4o mini\nClaude Haiku\nGemini Flash"]
    Q3 -->|"No, 일반 대화"| R4["GPT-4o mini\nClaude Haiku"]

속도 vs 성능 트레이드오프

flowchart LR
    subgraph TIER["모델 티어"]
        direction TB
        T1["🥇 최상위 모델\nGPT-4o, Claude 3.5 Sonnet\n높은 성능, 느린 속도, 높은 비용"]
        T2["🥈 중간 모델\nGPT-4o mini, Claude Sonnet\n균형잡힌 성능·비용·속도"]
        T3["🥉 경량 모델\nClaude Haiku, Gemini Flash\n빠른 속도, 저렴, 단순 작업에 적합"]
    end

실전에서는 복잡한 작업은 상위 모델, 반복·단순 작업은 경량 모델로 라우팅하면 비용을 크게 절감할 수 있습니다.


오픈소스 모델 선택지

API 비용이 부담되거나 데이터를 외부로 보내기 어려운 경우 자체 서버에서 실행하는 오픈소스 모델을 고려합니다.

모델파라미터특징
Llama 3.18B / 70B / 405BMeta, 상업 이용 가능
Mistral7B / 22B유럽산, 경량 고성능
Qwen 2.57B~72B중국어·코딩 강점
Phi-33.8B / 14BMicrosoft, 초경량
flowchart LR
    subgraph DECISION["오픈소스 vs API 선택"]
        OS["오픈소스 자체 호스팅"]
        API["클라우드 API"]
    end

    A1["✅ 데이터 보안 중요\n✅ 대용량 처리\n✅ 장기 사용"] --> OS
    A2["✅ 빠른 개발\n✅ 소규모 트래픽\n✅ 최신 모델 필요"] --> API

실전 모델 선택 체크리스트

프로젝트 시작 전 아래 항목을 점검하세요.

□ 응답 품질이 최우선인가? → 최상위 모델 (GPT-4o, Claude 3.5)
□ 처리량이 많고 비용이 중요한가? → 경량 모델 (Haiku, Flash, 4o-mini)
□ 코딩·분석 작업이 주인가? → Claude 3.5 Sonnet
□ 긴 문서 처리가 필요한가? → Claude (200K), Gemini (1M)
□ 데이터를 외부로 보내기 어려운가? → 오픈소스 자체 호스팅
□ 한국어 품질이 중요한가? → GPT-4o, Claude (한국어 우수)

정리

개념내용
벤치마크MMLU, HumanEval 등 객관적 능력 측정 지표
벤치마크 오염문제를 외워 점수를 높이는 문제점
토큰 과금입력+출력 토큰 수 × 단가 = API 비용
모델 티어최상위/중간/경량으로 용도에 따라 선택
오픈소스자체 호스팅으로 비용·보안 문제 해결

이것으로 LLM 기초 시리즈를 마칩니다. 다음은 프롬프트 엔지니어링 시리즈 — 같은 모델에서 훨씬 더 좋은 결과를 뽑아내는 기술을 배웁니다.

궁금한 점이 있으신가요?

협업·의뢰는 아래로, 가벼운 소통은 인스타그램 @bluefox._.hi도 환영이에요.