Тесты бесплатных моделей в задачах выделения идей из текста

Аватар автора
Nikas
Двадцать семь бесплатных моделей. Четыре теста на выживание. И только две прошли полностью. Остальные либо упирались в rate limit, либо висели по две минуты на запросе, либо возвращали JSON, который ломал парсер на первом же символе. Я не стал гадать, какая нейросеть «лучше» для извлечения идей из книг и документов. Вместо этого встроил бенчмарк прямо в расширение «Идеограф». Подключил API-агрегатор, прогнал модели через smoke test, проверку инструкций, валидацию JSON и реальную задачу: вытаскивание определений, теорем, методов и аналогий из текста по линейной алгебре с жёсткой схемой вывода. Цифры не врут: бесплатный сегмент оказался зоной нестабильности. А модели из самого нижнего платного тарифа (Gemma 3 27B, Gemini 2.0 Flash) отработали без сбоев, уложились в секунды и обошлись в доли копейки за запросы. Разница — не в «интеллекте», а в предсказуемости, инфраструктуре и соблюдении контрактов. «Идеограф» уже работает с большими документами, структурирует академические тексты и отображает идеи с любого языка на русский без потери смысла. Встроенный тестер позволяет подключить распространенный провайдер моделей или добавить другой API, проверить и модели на своих данных до того, как она попадёт в рабочий пайплайн.

0/0


0/0

0/0

0/0