Протестировал видеокарты nvidia 3090, 4090, A100 в задаче инференса нейросети Llama 70b.

Аватар автора
Виталий Кулиев
Сравнительный тест видеокарт для работы с нейросетями, на примере модели LLaMA 70B awq на 4 бита. Список видеокарт: 3090, 3090ti, 4090, A100 и H100. В тестировании участвуют личный сервер с 3090ti и арендованные серверы с остальными видеокартами. Видео будет полезно тем, кто занимается нейросетями и хочет узнать, какие видеокарты эффективнее использовать для инференса нейронных сетей. Скорость работы нейросетей аналогичного размера очень близка к этому тесту. Аналогичные по размеру нейросети: Qwen2.5-72B, Qwen2-VL-72B, InternVL2-76b... Арендую сервера здесь: Ссылка на нейросеть: Мой телеграм канал: Доступ ко всем сайтам получаю тут: В rutube дублирую видео. Подписывайтесь на случай замедления ютуба: vllm - проект по инференсу нейросетей: Ссылка на бенчмарк: Команда для запуска vLLM в докере: docker run --ipc=host --log-opt max-size=10m --log-opt max-file=1 --rm -it --gpus &-p 9000:8000 --mount type=bind,source=/home/me/.cache,target=/root/.cache vllm/vllm-openai:v0.6.2 --model casperhansen/llama-3-70b-instruct-awq --tensor-parallel-size 4 --gpu-memory-utilization 0.92 --max-model-len 8000 --dtype half -q awq --disable-log-requests Таймкоды: 0:00 обзор нейросети 0:40 выбор видеокарт 2:00 бенчмарк 2:15 результаты extract запросов 4:59 nvidia H100, дефицит 5:40 результаты generate запросов Реклама. ООО «ДТЛ». ИНН 9717073792. erid: LjN8KQv8C

0/0


0/0

0/0

0/0