Что если ИИ мог бы ПОНИМАТЬ и ОТПРАВЛЯТЬ картинки? Делаю в N8N

Аватар автора
AISchoolVibe
Создаю мультимодальный RAG в N8N с Mistral OCR: агент читает PDF с картинками и отвечает изображениями в чате В этом видео показываю пошаговое создание мультимодального RAG-системы, которая работает с изображениями в PDF документах. Используем N8N workflow, Mistral OCR и Qdrant для построения умного агента, который может: ✅ Извлекать текст и изображения из PDF файлов ✅ Анализировать содержимое картинок с помощью ИИ ✅ Создавать аннотации к изображениям ✅ Сохранять все в векторную базу данных ✅ Отвечать пользователю релевантными изображениями из документов Разбираю весь workflow от загрузки PDF до получения ответа с картинкой в чате. Показываю, как Mistral OCR извлекает изображения, преобразует их в Base64, загружает на S3 сервер и интегрирует с векторной базой Qdrant. Особенности реализации: 🔸 Работа с бинарными данными и Base64 🔸 Автоматическая генерация UUID для файлов 🔸 Замена ссылок на изображения в Markdown 🔸 Настройка chunking для оптимального поиска 🔸 Интеграция с Groq для быстрых ответов Этот подход идеально подходит для создания ассистентов, работающих с технической документацией, инструкциями, схемами и диаграммами. ТАЙМКОДЫ 00:00 Введение и демонстрация результата 00:34 Обзор workflow и архитектуры 01:04 Загрузка PDF в Mistral OCR 02:25 Анализ результата: текст и изображения 03:40 Извлечение изображений в отдельные файлы 05:06 Split по страницам и изображениям 06:01 Генерация UUID и настройка полей 07:28 Обработка Base64 данных 08:32 Загрузка на S3 сервер...

0/0


0/0

0/0

0/0