LLM 평가와 선택 기준 — 어떤 모델을 써야 할까?

"GPT-4가 제일 좋은 거 아닌가요?"

가장 비싸고 강력한 모델이 항상 최선일까요? 상황에 따라 답이 달라집니다. 간단한 분류 작업에 GPT-4o를 쓰는 건 볼펜 하나 사러 트럭을 몰고 가는 것과 같습니다.

좋은 모델 선택은 내 문제에 맞는 모델을 고르는 것입니다.

LLM 평가의 세 축

세 가지를 동시에 최대화할 수는 없습니다. 프로젝트의 우선순위에 따라 균형을 잡는 것이 핵심입니다.

주요 벤치마크 지표

MMLU (Massive Multitask Language Understanding)

57개 학문 분야의 객관식 문제 정답률. 일반 지식·추론 능력을 측정합니다.

HumanEval

코딩 문제를 주고 정상 작동하는 코드를 작성하는 비율. 개발 보조 도구 평가에 활용합니다.

MT-Bench / Chatbot Arena

실제 대화 품질을 사람이 직접 평가하거나 더 강력한 LLM이 평가하는 방식입니다.

벤치마크의 함정

높은 벤치마크 점수가 실제 업무에서의 우수함을 보장하지는 않습니다. 모델이 벤치마크 문제를 학습 데이터에 포함시켜 '외워서' 높은 점수를 받는 벤치마크 오염 문제가 알려져 있습니다.

비용 구조 이해하기

API 기반 LLM은 토큰 단위로 과금됩니다.

모델별 비용 비교 (2024년 기준, 1M 토큰당 USD)

모델	입력	출력	특징
GPT-4o	$2.5	$10	최고 성능
GPT-4o mini	$0.15	$0.6	가성비
Claude 3.5 Sonnet	$3	$15	코딩·분석 강점
Claude 3 Haiku	$0.25	$1.25	빠르고 저렴
Gemini 1.5 Flash	$0.075	$0.3	초저가

용도별 모델 선택 가이드

속도 vs 성능 트레이드오프

실전에서는 복잡한 작업은 상위 모델, 반복·단순 작업은 경량 모델로 라우팅하면 비용을 크게 절감할 수 있습니다.

오픈소스 모델 선택지

API 비용이 부담되거나 데이터를 외부로 보내기 어려운 경우 자체 서버에서 실행하는 오픈소스 모델을 고려합니다.

모델	파라미터	특징
Llama 3.1	8B / 70B / 405B	Meta, 상업 이용 가능
Mistral	7B / 22B	유럽산, 경량 고성능
Qwen 2.5	7B~72B	중국어·코딩 강점
Phi-3	3.8B / 14B	Microsoft, 초경량

실전 모델 선택 체크리스트

프로젝트 시작 전 아래 항목을 점검하세요.

□ 응답 품질이 최우선인가? → 최상위 모델 (GPT-4o, Claude 3.5)
□ 처리량이 많고 비용이 중요한가? → 경량 모델 (Haiku, Flash, 4o-mini)
□ 코딩·분석 작업이 주인가? → Claude 3.5 Sonnet
□ 긴 문서 처리가 필요한가? → Claude (200K), Gemini (1M)
□ 데이터를 외부로 보내기 어려운가? → 오픈소스 자체 호스팅
□ 한국어 품질이 중요한가? → GPT-4o, Claude (한국어 우수)

정리

개념	내용
벤치마크	MMLU, HumanEval 등 객관적 능력 측정 지표
벤치마크 오염	문제를 외워 점수를 높이는 문제점
토큰 과금	입력+출력 토큰 수 × 단가 = API 비용
모델 티어	최상위/중간/경량으로 용도에 따라 선택
오픈소스	자체 호스팅으로 비용·보안 문제 해결

이것으로 LLM 기초 시리즈를 마칩니다. 다음은 프롬프트 엔지니어링 시리즈 — 같은 모델에서 훨씬 더 좋은 결과를 뽑아내는 기술을 배웁니다.