과정 소개
"우리 회사만의 ChatGPT가 있으면 좋겠다" — 이 과정은 그 바람을 현실로 만듭니다. 12시간 동안 기업 내부에서 운영 가능한 프라이빗 LLM 시스템을 처음부터 끝까지 구축합니다.
먼저 오픈소스 LLM 생태계를 완전히 이해합니다. Llama, Qwen, DeepSeek, Mistral 등 주요 모델 패밀리를 비교하고, 파라미터 크기와 양자화(GGUF/AWQ/GPTQ/FP8)에 따른 성능-메모리 트레이드오프를 학습합니다. 우리 환경에 맞는 모델을 정확히 선택할 수 있게 됩니다.
추론 엔진은 3종을 모두 다룹니다. Ollama로 빠르게 시작하고, LM Studio로 GUI 환경을 구성하며, vLLM으로 프로덕션 수준의 서빙을 구현합니다. 특히 vLLM의 Tool Calling, Thinking, Structured Outputs 기능과 Prefix Caching, Multi-GPU 최적화는 이 과정의 핵심입니다.
마지막으로 OpenWebUI(ChatGPT 스타일 웹 인터페이스)와 AnythingLLM(RAG 통합 플랫폼)을 배포하여, 비개발자도 웹 브라우저에서 바로 사용할 수 있는 완성된 AI 서비스를 만듭니다.
핵심 학습 내용
- 오픈소스 LLM 생태계 완전 정복 — Llama, Qwen, DeepSeek, Mistral 비교 분석
- 양자화 마스터 — GGUF/AWQ/GPTQ/FP8 성능-메모리 트레이드오프 이해
- vLLM 프로덕션 서빙 — Tool Calling, Structured Outputs, Multi-GPU 최적화
- OpenWebUI 배포 — 비개발자도 사용 가능한 ChatGPT 스타일 웹 인터페이스
- AnythingLLM + RAG — 사내 문서 기반 지식 검색 통합 플랫폼 구축
상세 커리큘럼
13개 모듈 · 총 12시간 01
오픈소스 LLM 생태계 개요
40분 도구 분류선택 기준보안 장점
02
오픈소스 LLM 모델 패밀리
50분 LlamaQwenDeepSeekMistral
03
모델 크기와 양자화
60분 파라미터와 메모리GGUF/AWQ/GPTQ최적 양자화 선택
04
한국어 LLM 모델
40분 EXAONEQwen 한국어성능 평가 기준
05
Ollama 설치와 활용
50분 CLI/API구조화 출력모델 관리
06
LM Studio 활용
50분 모델 탐색/다운로드API 서버 구동
07
RunPod 클라우드 GPU
30분 계정 설정Pod 생성SSH 접속
08
vLLM 추론 서버 구축
50분 설치서버 옵션API 호출
09
vLLM 고급 기능
50분 Tool CallingThinkingStructured Outputs
10
vLLM 성능 최적화
50분 Prefix CachingMulti-GPU양자화
11
vLLM 심화와 SGLang 비교
60분 배치 추론SGLang DSL성능 벤치마크
12
OpenWebUI 챗 서버 구축
60분 Docker 설치Ollama 연동채팅 인터페이스
13
AnythingLLM RAG 플랫폼
60분 RAG 설정문서 업로드검색 기능
#Ollama#vLLM#LM Studio#OpenWebUI#RunPod
과정 요약
소요 시간
12시간
대상
중급 개발자 이상
난이도
중급
모듈 수
13개 모듈