Разделяй и шардируй: бюджетный GPU-кластер для распределённого инференса | Александр Подмосковный
Флант
Александр Подмосковный, руководитель центра компетенций технологий взаимодействия с клиентом в «МКБ», делится, как сделать вход в мир ИИ проще и доступнее, нацелившись на запуск крупных языковых моделей без внушительных бюджетов. Используя Proxmox для проброса GPU, Kubernetes-кластер под управлением Deckhouse и инструменты вроде vLLM и Ray Serve, он покажет, как организовать эффективный и масштабируемый инференс, не переплачивая за инфраструктуру. Вы узнаете, как подключить удобный веб-интерфейс (OpenWebUI) и обеспечить безопасность через CDN/WAF, а в итоге увидите, что выделить домашний кластер под серьёзные AI-задачи — вполне реальная, захватывающая и экономная авантюра. Таймкоды: 00:00 | Представление спикера и темы 01:53 | Почему дома, а не в облаке 04:29 | Архитектура домашнего кластера 06:06 | Проброс GPU 07:26 | Почему Deckhouse 10:40 | Запуск LLM дома 13:44 | Интерфейс взаимодействия с LLM 16:46 | Что умеет кластер и какие планы 20:21 | Итоги 22:00 | Песня от Александра 23:44 | Ответы на вопросы Заходите на наш сайт и GitHub, а также подписывайтесь на каналы, блог и соцсети «Фланта», чтобы узнавать больше о Deckhouse, DevOps и Kubernetes: #devops