Тест Gemini, Claude и GPT 5.1 на рукописной математике / DevLog

Аватар автора
Nikas
От простой консольной утилиты к бэкенду: в этом выпуске показываю, как эволюционирует приложение для трекинга прогресса в решении задач. Теперь это не только консольный таймер, а полноценная система с API, творческими сессиями и геймификацией, которая вознаграждает не только за правильный ответ, но и за «озарения» (epiphanies) и ход мыслей. Но главная боль любого математического приложения — ввод данных. Набирать LaTeX на телефоне практически невозможно. Решение? Сфотографировать тетрадь и позволить нейросетям сделать работу. Я написал бенчмарк и прогнал через него популярные модели из OpenRouter, чтобы выяснить, кто лучше справляется с распознаванием рукописного текста, формул и смелых сокращений математических выкладок. В видео разбираем результаты теста: Как GPT-5.1 CodexMax и Claude Haiku споткнулись на степенях и перепутали цифры? Gemini 2.5 Pro показала класс, но чуть не разорила меня (10 рублей за один запрос — это грабёж). И почему неожиданным фаворитом стала Gemini 3 Flash Preview, которая работает «на интуиции», стоит копейки, но при этом идеально объясняет математическую логику там, где я сэкономил силы, пропустив подробную роспись решения. Результаты тестов, логи OpenRouter и поиск идеального баланса между ценой и качеством.

0/0


0/0

0/0

0/0