Инструкция по запуску нейросети на своем сервере vLLM

Аватар автора
Виталий Кулиев
В этом видео я подробно показываю, как запустить нейросеть на своём или арендованном сервере с использованием двух видеокарт RTX 3090. Мы настроим сервер, установим все необходимые компоненты (Ubuntu, Docker, NVIDIA Toolkit), запустим нейросеть через VLM и проверим её работу через OpenAI-интерфейс. Разберём, как подобрать модель, как работает квантизация, и на что влияет конфигурация оборудования. В конце бенчмарк скорости генерации и ответы на частые вопросы. Полезно всем, кто хочет быстро и недорого поднять LLM для продакшена или тестов. Аренда сервера: Установка докер: sudo apt update sudo apt install docker.io Установка nvidia container toolkit: Далее нужно перезапустить докер: sudo systemctl restart docker Команда для запуска vllm в докере: sudo docker run --ipc=host --log-opt max-size=10m --log-opt max-file=1 --rm -it --gpus &--shm-size=32g --env "VLLM_USE_V1=0" -p 8000:8000 --mount type=bind,source=/home/ubuntu/.cache,target=/root/.cache vllm/vllm-openai:v0.10.0 --model cognitivecomputations/Qwen3-30B-A3B-AWQ --max-model-len 8000 --dtype half --gpu-memory-utilization 0.90 --disable-log-requests --no-enable-prefix-caching --tensor-parallel-size 2 Документация и ИИ помошник vLLM: Для выбора подходящей нейросети используйте сайт Huggingface: Мой телеграм канал. В нем идут активные обсуждения AI/IT новостей. Таймкоды 00:00 LLM на своём/арендованном сервере 00:43 Выбор конфигурации: 2×RTX 3090, цена ≈ 150 руб/час 01:25 Создание сервера: образ Ubuntu 24.04 + CUDA...

0/0


0/0

0/0

0/0