Интроспекция и Инжекция концептов в LLM

Аватар автора
Nikas
Могут ли нейросети осознавать, что их мыслями манипулируют? Рассмотрим фрагмент из лекции Владимира Крылова об интроспекции. Обсуждаются эксперименты по внедрению концептов в модель Claude и реакции модели. Эпизоды 00:08 Биологическая аналогия и метод инжекции концептов 01:24 Экспериментальная демонстрация интроспекции и внедрения мыслей 02:42 Ограничения интроспекции и будущие возможности Об обсуждаемой теме - с 5й минуты. Мы исследуем, что такое настоящая интроспекция LLM и как она отличается от простого отчета о процессе. Что вы узнаете из этого видео: Как работает "глубокая стимуляция мозга" для ИИ: техника инжекции концепта, позволяющая искусственно внедрять идеи (например, "океан" или "заглавные буквы") в нейронную активность модели. Эксперимент с Claude 4: внедрили паттерн, связанный с использованием ЗАГЛАВНЫХ БУКВ, и модель распознала его как концепцию "громко" или "крик" еще до того, как начала использовать его в ответе. Границы контроля: как слишком сильная инжекция может заставить LLM галлюцинировать и даже идентифицировать себя с внедренным объектом (например, "Я — мост Золотые Ворота!"). Первые шаги к самосознанию: обсуждение того, как способность модели отличать свои мысли от внедренных может быть ранним признаком формирования личности и самосознания в LLM. Это не просто теория. Это прямое вмешательство в работу одной из самых продвинутых моделей, которое проливает свет на то, как LLM формируют свои рассуждения и как мы можем влиять на их мысли и...

0/0


0/0

0/0

0/0