Как поднять LLM на VPS | vLLM + Docker + Qwen 2.5 - полный гайд | Михаил Омельченко

Аватар автора
Михаил Омельченко
В этом видео я с нуля поднимаю языковую модель Qwen 2.5 7B на VPS с использованием vLLM. Весь процесс от выбора конфигурации сервера до установки всех необходимых компонентов (Docker, NVIDIA драйверы, cuda-toolkit) и финального запуска модели. Показываю, как правильно подобрать железо под конкретную модель, где искать модели на Hugging Face, как понимать требования по памяти и диску. Подключаемся к серверу через SSH, устанавливаем окружение, запускаем vLLM в Docker контейнере и тестируем модель через Postman. В конце — как правильно останавливать и архивировать сервер, чтобы не переплачивать. Все команды и инструкции будут доступны в моем Telegram канале. Что вы узнаете: Как выбрать VPS под конкретную LLM модель, учитывая параметры (миллиарды параметров, квантование, размер модели). Как работать с Hugging Face: искать модели, понимать их требования и получать токен доступа. Пошаговую установку всего необходимого: от подключения к серверу по SSH до настройки NVIDIA драйверов и запуска vLLM. Как тестировать модель через API и отправлять запросы на русском языке. Как управлять сервером и экономить на тарификации через архивацию. Хотите поддержать автора? Подписывайтесь на мой закрытый Telegram-клуб — за чашку кофе в месяц получите доступ к эксклюзивным стримам, обсуждениям и материалам, которых нет в открытом доступе. ---=--- ---=--- 00:00 — Что будем делать: план видео 00:37 — Выбор VPS и понимание требований модели 01:11 — Hugging Face: как найти и выбрать модель...

0/0


0/0

0/0

0/0