로컬 LLM 중급

프라이빗 LLM 시스템 구축

12시간 중급 개발자 이상

과정 소개

"우리 회사만의 ChatGPT가 있으면 좋겠다" — 이 과정은 그 바람을 현실로 만듭니다. 12시간 동안 기업 내부에서 운영 가능한 프라이빗 LLM 시스템을 처음부터 끝까지 구축합니다.

먼저 오픈소스 LLM 생태계를 완전히 이해합니다. Llama, Qwen, DeepSeek, Mistral 등 주요 모델 패밀리를 비교하고, 파라미터 크기와 양자화(GGUF/AWQ/GPTQ/FP8)에 따른 성능-메모리 트레이드오프를 학습합니다. 우리 환경에 맞는 모델을 정확히 선택할 수 있게 됩니다.

추론 엔진은 3종을 모두 다룹니다. Ollama로 빠르게 시작하고, LM Studio로 GUI 환경을 구성하며, vLLM으로 프로덕션 수준의 서빙을 구현합니다. 특히 vLLM의 Tool Calling, Thinking, Structured Outputs 기능과 Prefix Caching, Multi-GPU 최적화는 이 과정의 핵심입니다.

마지막으로 OpenWebUI(ChatGPT 스타일 웹 인터페이스)와 AnythingLLM(RAG 통합 플랫폼)을 배포하여, 비개발자도 웹 브라우저에서 바로 사용할 수 있는 완성된 AI 서비스를 만듭니다.

핵심 학습 내용

오픈소스 LLM 생태계 완전 정복 — Llama, Qwen, DeepSeek, Mistral 비교 분석
양자화 마스터 — GGUF/AWQ/GPTQ/FP8 성능-메모리 트레이드오프 이해
vLLM 프로덕션 서빙 — Tool Calling, Structured Outputs, Multi-GPU 최적화
OpenWebUI 배포 — 비개발자도 사용 가능한 ChatGPT 스타일 웹 인터페이스
AnythingLLM + RAG — 사내 문서 기반 지식 검색 통합 플랫폼 구축

상세 커리큘럼

13개 모듈 · 총 12시간

오픈소스 LLM 생태계 개요

40분

도구 분류선택 기준보안 장점

오픈소스 LLM 모델 패밀리

50분

LlamaQwenDeepSeekMistral

모델 크기와 양자화

60분

파라미터와 메모리GGUF/AWQ/GPTQ최적 양자화 선택

한국어 LLM 모델

40분

EXAONEQwen 한국어성능 평가 기준

Ollama 설치와 활용

50분

CLI/API구조화 출력모델 관리

LM Studio 활용

50분

모델 탐색/다운로드API 서버 구동

RunPod 클라우드 GPU

30분

계정 설정Pod 생성SSH 접속

vLLM 추론 서버 구축

50분

설치서버 옵션API 호출

vLLM 고급 기능

50분

Tool CallingThinkingStructured Outputs

vLLM 성능 최적화

50분

Prefix CachingMulti-GPU양자화

vLLM 심화와 SGLang 비교

60분

배치 추론SGLang DSL성능 벤치마크

OpenWebUI 챗 서버 구축

60분

Docker 설치Ollama 연동채팅 인터페이스

AnythingLLM RAG 플랫폼

60분

RAG 설정문서 업로드검색 기능

#Ollama#vLLM#LM Studio#OpenWebUI#RunPod

과정 요약

소요 시간

12시간

대상

중급 개발자 이상

난이도

중급

모듈 수

13개 모듈

이 교육이 필요하신가요?

기업 맞춤형 커리큘럼과 일정으로 진행 가능합니다. 문의해 주세요.

교육 문의하기 다른 커리큘럼 보기