Тихомиров М.М. - Обучение больших языковых моделей - 2. Механизм внимания, архитектура трансформер
Teach-In
Механизм внимания, архитектура трансформер Тихомиров Михаил Михайлович 00:17 Архитектура трансформер 02:31 Токенизация слоя 07:22 Позиционное кодирование 10:57 Преобразование векторов через трансформер-блоки 32:47 Итоговое предсказание слова линейным слоем 45:58 Transformer: первое впечатление 48:26 BERT 57:13 Некоторые практические аспекты работы с LLM 01:17:05 Домашнее задание #BERT