토크나이저와 임베딩 — 텍스트가 숫자가 되는 과정

컴퓨터는 글자를 모른다

LLM은 텍스트를 '이해'한다고 하지만, 컴퓨터는 본질적으로 숫자만 처리합니다. "안녕하세요"라는 문장이 모델 안으로 들어가려면 반드시 숫자로 바뀌어야 합니다.

이 변환 과정이 토크나이징과 임베딩입니다.

토크나이저는 문장을 토큰(token) 단위로 쪼갭니다.

토큰은 단어일 수도, 단어의 일부일 수도, 공백·구두점일 수도 있습니다. 모델은 이 숫자 배열만 봅니다.

영어: "I love programming"  →  3 토큰
한국어: "저는 프로그래밍을 좋아합니다"  →  약 8~10 토큰

한국어는 교착어 특성상 형태소 분리가 많이 일어납니다. 같은 내용이라도 영어보다 토큰 소비가 많아 비용이 더 많이 들고 처리 속도가 느립니다. API 비용을 계산할 때 반드시 고려해야 합니다.

토큰 ID는 단순한 번호입니다. "고양이 = 1234", "강아지 = 5678"이라고 해서 둘의 관계를 알 수 없습니다.

임베딩(Embedding) 은 각 토큰을 고차원 공간의 벡터로 변환합니다. 의미가 비슷한 단어는 벡터 공간에서도 가깝게 위치합니다.

두 벡터가 얼마나 가까운지는 코사인 유사도로 계산합니다.

유명한 벡터 연산 예시:

왕 - 남자 + 여자 ≈ 여왕
파리 - 프랑스 + 한국 ≈ 서울

임베딩 벡터가 단순 번호가 아닌 의미를 인코딩하고 있기 때문에 이런 산술이 가능합니다.

키워드 검색은 단어가 정확히 일치해야 합니다. 임베딩 기반 검색은 의미가 비슷하면 찾아냅니다.

'강아지'와 '개', '반려견'이 다른 단어지만 의미가 같으므로 모두 검색됩니다. 이것이 RAG의 핵심 검색 엔진입니다.

검색은 임베딩 모델로, 답변 생성은 LLM으로 역할을 나누는 것이 실전 RAG 시스템의 기본 패턴입니다.

다음 편에서는 임베딩을 활용해 외부 문서를 LLM에 연결하는 RAG(검색 증강 생성) 를 배웁니다.