Как поднять LLM на VPS | vLLM + Docker + Qwen 2.5 - полный гайд | Михаил Омельченко

Михаил Омельченко

В этом видео я с нуля поднимаю языковую модель Qwen 2.5 7B на VPS с использованием vLLM. Весь процесс от выбора конфигурации сервера до установки всех необходимых компонентов (Docker, NVIDIA драйверы, cuda-toolkit) и финального запуска модели. Показываю, как правильно подобрать железо под конкретную модель, где искать модели на Hugging Face, как понимать требования по памяти и диску. Подключаемся к серверу через SSH, устанавливаем окружение, запускаем vLLM в Docker контейнере и тестируем модель через Postman. В конце — как правильно останавливать и архивировать сервер, чтобы не переплачивать. Все команды и инструкции будут доступны в моем Telegram канале. Что вы узнаете: Как выбрать VPS под конкретную LLM модель, учитывая параметры (миллиарды параметров, квантование, размер модели). Как работать с Hugging Face: искать модели, понимать их требования и получать токен доступа. Пошаговую установку всего необходимого: от подключения к серверу по SSH до настройки NVIDIA драйверов и запуска vLLM. Как тестировать модель через API и отправлять запросы на русском языке. Как управлять сервером и экономить на тарификации через архивацию. Хотите поддержать автора? Подписывайтесь на мой закрытый Telegram-клуб — за чашку кофе в месяц получите доступ к эксклюзивным стримам, обсуждениям и материалам, которых нет в открытом доступе. ---=--- ---=--- 00:00 — Что будем делать: план видео 00:37 — Выбор VPS и понимание требований модели 01:11 — Hugging Face: как найти и выбрать модель...

	256x144
	424x240
	640x360
	848x480
	1280x720
	1920x1080

Как поднять LLM на VPS | vLLM + Docker + Qwen 2.5 - полный гайд | Михаил Омельченко

Михаил Омельченко

Рекомендуем!

Скачать Видео с Рутуба / RuTube

Музыка

Фильмы

Мультфильмы