Breaking Agent Backbones: Evaluating the Security of Backbone LLMs in AI Agents

Аватар автора
Paper debate
Взлом каркасов агентов: Оценка безопасности базовых LLM в AI агентах В данной статье представлен новый фреймворк под названием «снимки угроз» для оценки безопасности больших языковых моделей (LLM), используемых в качестве базовых в AI-агентах. Он решает проблемы моделирования безопасности в AI-агентах из-за их недетерминированной природы и переплетения уязвимостей LLM с традиционными программными рисками. Фреймворк «снимки угроз» изолирует конкретные состояния, в которых проявляются уязвимости LLM, что позволяет систематически идентифицировать и классифицировать риски безопасности. Авторы разработали b3benchmark, бенчмарк безопасности, основанный на краудсорсинговых атаках, и оценили 31 популярную LLM. Результаты показывают, что расширенные возможности рассуждения улучшают безопасность, в то время как размер модели не коррелирует с ней. Бенчмарк, набор данных и код оценки выпущены для содействия более широкому внедрению и стимулирования улучшений безопасности в базовых LLM. Исследование фокусируется на различении уязвимостей, специфичных для LLM, от традиционных системных рисков в архитектурах AI-агентов. #ЯзыковыеМодели отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

0/0


0/0

0/0

0/0