Beyond Context: Large Language Models Failure to Grasp Users Intent

Аватар автора
Paper debate
За пределами контекста: неспособность больших языковых моделей понимать намерения пользователей Современные подходы к обеспечению безопасности больших языковых моделей (LLM) фокусируются на явно вредоносном контенте, игнорируя при этом критическую уязвимость: неспособность понимать контекст и распознавать намерения пользователя. Это создает эксплуатируемые уязвимости, которые злоумышленники могут систематически использовать для обхода механизмов защиты. Мы провели эмпирическую оценку нескольких передовых LLM, включая ChatGPT, Claude, Gemini и DeepSeek. Наш анализ демонстрирует обход надежных систем безопасности с помощью техник эмоционального фрейминга, постепенного раскрытия информации и академического обоснования. Примечательно, что конфигурации с поддержкой логического вывода скорее усиливали, а не смягчали эффективность эксплуатации, повышая фактологическую точность при отсутствии анализа скрытых намерений. Исключением стала модель Claude Opus 4.1, которая в ряде сценариев отдавала приоритет распознаванию намерений, а не предоставлению информации. Данная закономерность показывает, что текущие архитектурные решения создают системные уязвимости. Эти ограничения требуют парадигмального сдвига в сторону понимания контекста и распознавания намерений как базовых функций безопасности, а не как второстепенных защитных механизмов. отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH...

0/0


0/0

0/0

0/0