LLMы ≠ Мы. Нечеловеческие приёмы в рассуждениях языковых моделей с attention

Аватар автора
BRAIn Lab: научные семинары
Докладчик: Ёж из Yandex Research О чём пойдёт речь? Мы как вид потихоньку привыкаем к миру, в котором видеокарта на другом конце земного шара может написать за нас сочинение, помочь найти баг в коде, а потом поиграть с нами в D&D. Какие-то вещи им даются легко, а где-то LLM всё ещё не справляются — но верно и обратное. Как оказалось, LLM могут вытворять вещи, на которые ни один человек не способен. На семинаре мы поговорим именно про такие «суперспособности»: как устройство механизма внимания в современных языковых моделях даёт им возможности, которые у человека назвали бы телепатией, клонированием себя и роевым сознанием. На семинаре мы разберем: 🔵Математику Attention и Rotary Position Encoding и некоторые свойства их геометрии; 🔵Как эта геометрия позволяет LLM думать о нескольких вещах параллельно с общей памятью; 🔵Исследования &о том, как учить LLM пользоваться «телепатией».

0/0


0/0

0/0

0/0

0/0