Self‑host LLM без боли: RIP/RIM, квантизация и как не попасться на хайп
Veal - управляемый AI в разработке
В третьей части серии разбираем вещи, о которых чаще всего вспоминают в конце - когда модель уже не влазит в GPU или даёт странное качество. Говорим про RIP и RIM для MoE‑моделей, квантизацию, калибрационные датасеты, мультимодальные модели и гиперпараметры вроде reasoning и контекста. Обсуждаем, почему не стоит слепо верить бенчмаркам и агрегаторам моделей, как относиться к «подворотенным» квантизациям и почему иногда старая модель на вашей задаче выигрывает у свежего релиза. В конце — практические выводы: как выбирать модель под свой проект, что обязательно проверять в пилоте и почему «здоровая паранойя» к провайдерам GPU и API - это нормально для продакшена. Коротко по выпуску: RIP/RIM помогают ужать большие MoE‑модели под конкретные задачи (например, только кодинг) без жёсткой потери качества. Качество любой квантизации, RIP и RIM сильно зависит от калибрационного датасета, а не только от «магии» метода. Не все квантизации и API‑провайдеры одинаково полезны: за красивым именем модели может скрываться что угодно, поэтому критично проверять всё на своих бенчмарках. Reasoning и размер контекста — такие же гиперпараметры, как learning rate: местами больше токенов на рассуждения помогает, местами ухудшает результат. Новая модель не всегда лучше старой; иногда годовалый GPT‑OSS или «старый» Gemini ведут себя стабильнее в конкретном домене. Финальный чек‑лист: не верим публичным бенчмаркам, считаем экономику, тестируем на своих задачах и заходим через демо/пилот, а не...