Baidu Qianfan OCR 4B — убийца топовых OCR моделей?

Аватар автора
1С PRO: Интеграция + ИИ | NIZAMOV.SCHOOL
Компания Baidu выпустила модель Qianfan OCR с 4 миллиардами параметров и заявляет, что она превосходит даже платные решения. Я решил проверить это на практике и провёл полноценный бенчмарк на реальных задачах: распознавание паспортов, водительских удостоверений, бюллетеней голосования, счетов-фактур, рукописного текста и математических формул. В видео: - Обзор модели Baidu Qianfan OCR 4B с Hugging Face - Запуск локально на одной видеокарте RTX 3090 (16-22 ГБ VRAM) - Бенчмарк на 6 реальных задачах OCR - Сравнение с Qwen VL (4B, 72B, 235B), Gemini 3 Pro, GLM - Извлечение данных из таблиц и документов в JSON - Распознавание рукописного текста на русском языке - Результаты: где модель побеждает, а где проигрывает Результаты бенчмарка: - Распознавание форм и бюллетеней — на уровне топовых моделей - Паспорт и водительское удостоверение — отличные результаты - Извлечение табличных данных — Qwen VL справляется лучше - Рукописный русский текст — слабое место Qianfan OCR - Лучший результат по рукописному тексту — Gemini 3 Pro Проект OCR Arena (ссылка на GitHub): Таймкоды: 00:00 — Введение 00:48 — Обзор модели на Hugging Face 01:40 — Мой проект и бенчмарк 02:45 — Запуск приложения 05:26 — Демонстрация работы 07:22 — Результаты распознавания 08:02 — Подключение облачных моделей через OpenRouter 08:46 — Графики сравнения моделей 11:14 — Детальный разбор ошибок 14:04 — Рукописный текст: сравнение моделей 15:41 — Итоги и выводы Сотрудничество и предложения: Сот: +7 (917) 449-09-97...

0/0


0/0

0/0

0/0

0/0