Претрейн мультимодальных LLM на практике / Данил Кашин
Компьютерные науки
Данил Кашин, руководитель команды претрейна VLM в Яндекс R&D, рассказал, как создаются визуально-языковые модели: от концепции и архитектуры до оценки качества. В докладе он разобрал, почему именно предобучение определяет итоговые возможности модели, какие данные нужны, как их отбирать, а также какие ловушки подстерегают разработчиков на этом пути. #AITech