생성형 AI가 다양한 업무 환경에 도입되면서 기업은 단순히 LLM을 사용하는 것을 넘어, 어떤 모델을 선택하고 어떻게 안정적으로 서비스할 것인지까지 함께 고민하게 되었습니다. 모델을 실제 서비스 환경에 올리는 과정에서는 성능, 응답 속도, 메모리 사용량, 운영 비용, 배포 방식 등 여러 요소를 함께 고려해야 합니다.
Puteron AI는 이러한 AI Model을 Serving하기 위한 플랫폼입니다. 모델을 운영 환경에서 활용하려면 Token, Context Window, KV Cache, MoE, GGUF, Quantization과 같은 용어를 자주 접하게 됩니다. 이 용어들은 단순한 기술 약어가 아니라, 모델의 실행 방식과 운영 리소스를 이해하기 위한 핵심 기준입니다.
이번 글에서는 Puteron AI와 같은 AI Model Serving 플랫폼을 이해하고 활용하는 과정에서 자주 등장하는 주요 용어들을 기초 개념부터 모델 선택에 필요한 표현까지 순서대로 정리해보겠습니다.
AI Model Serving에서 용어 이해가 중요한 이유
LLM을 테스트 환경에서 사용해보는 것과 실제 서비스 환경에 배포하는 것은 다른 문제입니다. 사용자가 입력하는 문장의 길이, 모델이 처리해야 하는 동시 요청 수, 답변을 생성하는 속도, 모델을 실행하기 위한 메모리 요구사항은 모두 서비스 품질과 직접적으로 연결됩니다.
따라서 Puteron AI를 통해 모델을 서빙하려면 모델 이름에 표시된 크기나 파일 형식만 보는 것이 아니라, 모델이 입력을 어떻게 처리하고 답변을 어떤 방식으로 생성하는지 이해할 필요가 있습니다. 아래 용어들은 이러한 판단을 돕는 기본 개념입니다.
LLM이 문장을 이해하는 방식
LLM은 문장을 사람처럼 한 번에 읽는 것이 아니라, 작은 단위로 나누어 처리합니다. 이때 문장을 어떤 단위로 쪼개고, 사용자의 요청을 어떤 범위까지 참고할 수 있는지를 이해하면 모델 서빙 환경에서 입력 길이와 처리 비용을 판단하는 데 도움이 됩니다.
LLM: Large Language Model의 약자로, 대규모 언어 모델을 의미합니다. 방대한 텍스트 데이터를 학습하여 문장의 패턴과 맥락을 파악하고, 질문에 대한 답변이나 새로운 문장을 생성할 수 있는 AI 모델입니다. Puteron AI에서 서빙 대상으로 다루는 핵심 모델 유형도 이러한 LLM을 포함합니다.
Token: LLM이 문장을 처리하기 위해 사용하는 최소 단위입니다. 한글의 경우 글자, 단어, 조사, 공백 등이 여러 방식으로 나뉠 수 있으며, 영어 단어 역시 하나의 단어가 여러 토큰으로 분리될 수 있습니다. 모델 서빙에서는 입력과 출력의 토큰 수가 응답 시간과 비용, 처리량에 영향을 줄 수 있습니다.
Tokenization: 문장을 토큰으로 나누는 과정입니다. 같은 문장이라도 모델이 사용하는 토크나이저에 따라 토큰 수가 달라질 수 있습니다. 따라서 Puteron AI에서 모델을 선택하거나 입력 데이터를 구성할 때는 실제 글자 수보다 토큰 수를 기준으로 이해하는 것이 중요합니다.
Prompt: 사용자가 LLM에게 전달하는 질문이나 지시문입니다. 단순히 질문을 던지는 것뿐만 아니라 원하는 역할, 답변 형식, 참고해야 할 조건을 함께 제공하는 것도 프롬프트에 포함됩니다. 서비스 환경에서는 프롬프트 구조가 답변 품질뿐만 아니라 입력 토큰 수와 응답 속도에도 영향을 줍니다.
Context Window: LLM이 한 번의 요청에서 참고할 수 있는 토큰의 범위입니다. 예를 들어 8K, 32K, 128K와 같은 표현은 모델이 한 번에 처리할 수 있는 문맥 길이를 의미합니다. Context Window가 클수록 긴 문서나 긴 대화를 더 많이 참고할 수 있지만, 그만큼 연산량과 메모리 사용량도 증가합니다. 모델 서빙 플랫폼에서는 이 값을 이해해야 적절한 모델과 운영 환경을 선택할 수 있습니다.
LLM이 답변을 생성하는 과정
LLM은 사용자의 질문을 입력받은 뒤 답변 전체를 한 번에 완성하지 않습니다. 이전에 생성한 내용을 바탕으로 다음 토큰을 예측하고, 그 토큰을 다시 다음 예측의 입력으로 사용하면서 문장을 이어갑니다. 이 과정을 이해하면 Transformer, Attention, KV Cache와 같은 용어가 Model Serving에서 왜 중요한지 자연스럽게 연결됩니다.
Parameter: 모델이 학습 과정에서 얻은 내부 값입니다. 흔히 모델이 가지고 있는 지식과 언어 패턴이 저장된 가중치라고 설명할 수 있습니다. 모델명에 표시되는 7B, 13B, 70B와 같은 숫자는 이 파라미터 수를 나타냅니다. 파라미터 수는 모델 품질뿐만 아니라 서빙에 필요한 메모리와 연산 자원에도 영향을 줍니다.
Transformer: 현대 LLM의 기반이 되는 모델 구조입니다. 문장 안의 각 토큰이 서로 어떤 관계를 갖는지 파악하고, 전체 문맥 속에서 중요한 정보를 찾는 데 강점을 가지고 있습니다. 대부분의 대형 언어 모델이 Transformer 구조를 기반으로 발전했기 때문에, LLM Serving을 이해하기 위한 기본 개념으로 볼 수 있습니다.
Attention: 문장 안에서 어떤 토큰을 더 중요하게 참고해야 하는지 계산하는 메커니즘입니다. 예를 들어 긴 문장에서 특정 대명사가 앞의 어떤 단어를 가리키는지 파악하거나, 질문의 핵심 조건을 답변 생성 과정에서 계속 반영하는 데 사용됩니다. Attention 계산은 모델의 추론 속도와 메모리 사용량에도 연결됩니다.
Inference: 학습이 완료된 모델이 실제로 답변을 생성하는 과정입니다. 사용자가 프롬프트를 입력하면 모델은 이미 학습된 파라미터를 바탕으로 다음 토큰을 예측하고, 이를 반복하여 최종 답변을 만듭니다. Puteron AI와 같은 Model Serving 플랫폼에서 실제로 운영되는 핵심 과정이 바로 Inference입니다.
KV Cache: LLM이 답변을 생성할 때 이전 토큰들의 Attention 계산 결과 중 Key와 Value 값을 저장해두는 메모리 공간입니다. 모델은 답변을 토큰 단위로 이어가기 때문에 매번 처음부터 모든 문맥을 다시 계산하면 속도가 크게 느려집니다. KV Cache는 이미 계산한 정보를 재사용하게 해주므로 응답 생성 속도를 높이는 데 중요한 역할을 합니다. 다만 Context Window가 길어질수록 저장해야 할 값도 늘어나기 때문에, Puteron AI처럼 모델을 실제 서비스 환경에서 서빙할 때는 메모리 사용량을 이해하기 위해 반드시 알아야 하는 개념입니다.
답변 품질과 서비스 동작을 조절하는 주요 개념
Model Serving 환경에서는 모델을 실행하는 것뿐만 아니라 어떤 방식으로 답변을 생성하게 할지도 중요합니다. 같은 모델이라도 설정값과 참고 데이터에 따라 답변의 안정성, 다양성, 신뢰성이 달라질 수 있기 때문입니다.
Temperature: 답변의 무작위성과 다양성을 조절하는 값입니다. Temperature가 낮으면 모델은 더 안정적이고 예측 가능한 답변을 생성하는 경향이 있으며, 값이 높으면 더 다양한 표현과 아이디어가 나올 수 있습니다. 서비스 목적에 따라 일관성이 중요한 챗봇과 창의성이 중요한 콘텐츠 생성 도구는 서로 다른 설정이 필요할 수 있습니다.
Hallucination: LLM이 사실과 다른 내용을 그럴듯하게 생성하는 현상입니다. 모델은 문장의 가능성을 바탕으로 답변을 만들기 때문에, 근거가 부족한 상황에서도 자연스러운 문장으로 잘못된 정보를 제시할 수 있습니다. 기업 환경에서 LLM을 서빙할 때는 이 문제를 줄이기 위해 검색 기반 보완이나 검증 절차를 함께 고려해야 합니다.
Embedding: 단어나 문장의 의미를 숫자 벡터로 변환한 표현입니다. 의미가 비슷한 문장은 벡터 공간에서도 가까운 위치에 배치되기 때문에, 문서 검색, 추천, 유사 질문 찾기 등에 활용됩니다. LLM 서비스를 구축할 때 내부 문서 검색이나 지식 기반 응답을 구성하는 데 자주 사용됩니다.
RAG: Retrieval-Augmented Generation의 약자로, 외부 문서를 검색한 뒤 그 결과를 바탕으로 LLM이 답변을 생성하는 방식입니다. 모델이 모든 최신 정보나 기업 내부 문서를 기억하고 있는 것은 아니기 때문에, RAG는 실제 업무 환경에서 LLM을 신뢰성 있게 활용하기 위한 대표적인 방법으로 사용됩니다.
Fine-tuning: 기존 모델을 특정 목적이나 도메인에 맞게 추가 학습시키는 과정입니다. 예를 들어 고객 상담 말투, 특정 산업의 문서 형식, 사내 업무 규칙 등을 더 잘 따르게 만들고 싶을 때 활용할 수 있습니다. 다만 모든 문제를 Fine-tuning으로 해결하는 것은 아니며, 최신 문서 기반 답변에는 RAG가 더 적합한 경우도 많습니다.
모델을 선택할 때 자주 보이는 표현
Puteron AI와 같은 AI Model Serving 플랫폼을 사용할 때는 어떤 모델을 서빙할 것인지 선택하는 과정이 중요합니다. 모델 이름에는 크기, 구조, 파일 형식, 양자화 수준과 같은 정보가 포함되는 경우가 많으며, 이 표현들은 운영 리소스와 서비스 성능을 판단하는 기준이 됩니다.
B: Billion의 약자로, 10억 개의 파라미터를 의미합니다. 7B 모델은 약 70억 개, 70B 모델은 약 700억 개의 파라미터를 가진 모델입니다. 일반적으로 파라미터 수가 많을수록 복잡한 추론이나 다양한 표현에 강해질 가능성이 있지만, 서빙에 필요한 메모리와 연산 자원도 함께 증가합니다.
MoE: Mixture of Experts의 약자로, 하나의 모델 안에 여러 전문가 모델을 두고 입력에 따라 일부 전문가만 활성화하는 구조입니다. 예를 들어 8x7B와 같은 표기는 7B 규모의 전문가가 8개 있는 구조를 의미할 수 있습니다. 모든 전문가가 항상 동시에 사용되는 것은 아니기 때문에, 큰 모델의 표현력을 확보하면서 실제 연산량을 줄이는 방식으로 활용됩니다.
Active Parameter: MoE 모델에서 한 번의 추론에 실제로 사용되는 파라미터 수를 의미합니다. 전체 파라미터 수가 크더라도 일부 전문가만 활성화되면 실제 계산량은 더 작을 수 있습니다. 다만 모델 전체를 저장하거나 메모리에 올려야 하는 경우가 많기 때문에, 전체 크기와 활성 파라미터 수를 함께 확인해야 합니다.
GGUF: 로컬 환경이나 경량화된 실행 환경에서 LLM을 실행할 때 자주 사용되는 모델 파일 형식입니다. llama.cpp, LM Studio, Ollama 계열 도구에서 많이 사용되며, 모델 가중치와 토크나이저 정보, 실행에 필요한 메타데이터를 함께 담습니다. GGUF는 성능 단위가 아니라 모델을 담는 파일 포맷입니다.
Quantization: 모델의 숫자 표현 정밀도를 낮춰 파일 크기와 메모리 사용량을 줄이는 기술입니다. 원래 더 정밀한 숫자로 저장되던 가중치를 더 작은 단위로 표현하기 때문에 제한된 자원에서도 큰 모델을 실행할 수 있게 해줍니다. 대신 지나치게 낮은 정밀도를 사용하면 답변 품질이 떨어질 수 있습니다.
Q4, Q5, Q8: GGUF 모델명에서 자주 보이는 양자화 수준입니다. Q4는 상대적으로 작고 가볍지만 품질 손실이 있을 수 있으며, Q8은 크기가 더 크지만 원본 모델에 가까운 품질을 기대할 수 있습니다. Model Serving 환경에서는 품질, 속도, 메모리 사용량의 균형을 고려해 적절한 수준을 선택해야 합니다.
Base Model과 Instruct Model: Base Model은 기본 언어 모델에 가까우며, 추가 학습이나 연구의 기반으로 사용되는 경우가 많습니다. Instruct Model은 사용자의 지시를 더 잘 따르도록 학습된 모델이므로 채팅, 요약, 번역, 질의응답처럼 일반적인 서비스 활용에는 Instruct 모델이 더 적합한 경우가 많습니다.
모델 이름은 어떻게 읽어야 할까
모델 이름은 처음 보면 복잡해 보이지만, 각 부분을 나누어 보면 모델 계열, 크기, 용도, 양자화 수준, 파일 형식을 알려주는 정보로 구성되어 있습니다. 예를 들어 상기 이미지 처럼 Llama-3.1-8B-Instruct-Q4_K_M.gguf라는 이름은 다음과 같이 해석할 수 있습니다.
Llama-3.1: 모델 계열과 버전을 의미하며, 어떤 모델 패밀리의 몇 번째 세대인지 보여줍니다.
8B: 약 80억 개 파라미터를 가진 모델이라는 뜻입니다.
Instruct: 사용자의 명령을 잘 따르도록 조정된 모델입니다.
Q4_K_M: 메모리 사용량을 줄이기 위해 4비트 계열로 압축된 모델입니다.
.gguf: 로컬 LLM 실행 도구에서 사용하는 모델 파일 포맷입니다.
이처럼 모델 이름을 구성 요소별로 읽으면 Puteron AI에서 어떤 모델을 서빙할지 검토할 때 모델의 크기, 사용 목적, 실행 가능 환경, 메모리 요구사항을 더 쉽게 판단할 수 있습니다.
Puteron AI에서 이 용어들이 중요한 이유
AI 모델을 서비스 환경에서 운영할 때는 모델을 한 번 실행해보는 것만으로 충분하지 않습니다. 사용자의 요청이 늘어났을 때도 안정적으로 응답할 수 있는지, 긴 문맥을 처리할 때 메모리 사용량이 어떻게 변하는지, 어떤 모델 형식과 양자화 수준이 운영 환경에 적합한지 함께 판단해야 합니다.
Puteron AI는 AI Model을 Serving하기 위한 플랫폼이기 때문에, 이러한 용어들은 제품을 이해하는 데 필요한 사전 지식이 됩니다. Token과 Context Window는 요청의 크기를 이해하는 기준이 되고, KV Cache는 응답 속도와 메모리 사용량을 판단하는 핵심 개념이 됩니다. 또한 MoE, GGUF, Quantization은 어떤 모델을 선택하고 운영할지 결정하는 과정에서 중요한 기준으로 활용됩니다.
마무리
LLM 관련 용어는 처음에는 낯설게 느껴지지만, 대부분은 모델이 문장을 처리하고 답변을 생성하며 실제 서비스 환경에서 실행되는 방식과 연결되어 있습니다. 따라서 Puteron AI를 효과적으로 활용하기 위해서는 단순히 모델 이름이나 크기만 보는 것이 아니라, 모델이 어떤 구조로 동작하고 어떤 리소스를 필요로 하는지 함께 이해해야 합니다.
이러한 기본 용어를 이해하면 Puteron AI에서 모델을 선택하고 서빙 환경을 구성하는 과정에서 더 합리적인 판단을 내릴 수 있습니다. 결국 AI Model Serving은 모델을 실행하는 기술을 넘어, 서비스 품질과 운영 효율성을 함께 관리하는 과정이라고 볼 수 있습니다.


































