Как работает Search Engine под капотом: ранжирование и релевантность

Организованное программирование | Кирилл Мокевнин

Сегодня у меня в гостях Рауф Алиев — человек, который варится в поиске уже четверть века. Он начинал с самописного inverted index в начале 2000-х, когда всё приходилось изобретать руками, и дошёл до современных гибридных систем — с векторным поиском, трансформерами и рекомендациями поверх всего этого. Мы обсудили, как вообще устроен полнотекстовый поиск: что такое inverted index на практике, зачем нужен BM25, почему важно учитывать длину документа, что дают proximity и exact match. Отдельно разобрали, почему фасеты — это не совсем «поиск», как работают стемминг и лемматизация, зачем иногда хранить и нормализованный, и оригинальный текст, и почему работа с разными языками — это отдельная инженерная боль. Потом ушли в гибридные модели: как смешиваются ключевые слова, query expansion, синонимы и векторные представления. Поговорили о том, почему векторный поиск лучше понимает смысл, но хуже объясняет свои решения, и как LLM можно использовать не для болтовни в чате, а как инструмент, который превращает человеческий запрос в понятные системе фильтры. Ну и, конечно, обсудили качество. Что такое precision, recall, NDCG на практике, как собрать свой ground truth и как сравнивать конфигурации поиска без мучительных A/B-экспериментов на пользователях. И почему почти всегда, улучшая одну метрику, ты неизбежно просаживаешь другую — и с этим просто приходится жить. Полезные ссылки: В этом видео: 00:00 Введение. Поиск сложнее, чем вы думаете - 25 лет опыта за 2 часа 01:07 От...

256×144	▬
424×240	▬
640×360	171.18MB
848×480	475.97MB
1280×720	▬
1920×1080	1.32GB

Как работает Search Engine под капотом: ранжирование и релевантность

Организованное программирование | Кирилл Мокевнин

Скачать видео с Дзен, Dzen

Скачать Видео с Дзена по ссылке

Музыка

Фильмы

Мультфильмы

Скачать популярное видео

Скачать видео с
Дзен, Dzen