Визуально-текстовая омни-модель: путь к объединению LLM и VLM / Роман Исаченко
Компьютерные науки
На Saturday ML Party Роман Исаченко, руководитель группы анализа изображений в Яндекс R&D, рассказал, как выглядел долгий путь к сведению LLM и VLM из части семейства Alice AI в единую омни-модель. Она умеет работать с текстом и изображениями в одном контуре. А ещё поделился ключевыми этапами, компромиссами и планами по развитию модели в ближайшем будущем. #AIConference