ИИ просто ПОРАЗИЛ всех: он официально обладает самосознанием

Аватар автора
MadBrainyAi
Компания Anthropic только что продемонстрировала, что Claude может распознавать собственные внутренние «мысли». С помощью внедрения концепций исследователи воздействовали на активацию Claude такими векторами, как «все заглавные» или «океан», и Claude 4/4.1 правильно распознал и назвал внедренную концепцию с оптимальной силой — около 20 % успешных результатов при нулевом количестве ложных срабатываний в производственных моделях, достигающих примерно двух третей слоев сети. Они также доказали, что предварительное заполнение может выглядеть «преднамеренным», если задним числом подкрепить доказательствами предыдущие активации. Это означает, что модель сверяется со своими ранее вычисленными намерениями, а не только с поверхностным текстом. Это ранний, ненадёжный, но реальный пример самоанализа машины. Между тем исследование Женевского и Бернского университетов показало, что шесть больших языковых моделей — ChatGPT-4, ChatGPT-o1, Gemini 1.5 Flash, Copilot 365, Claude 3.5 Haiku, DeepSeek V3 — набрали ~81–82 % баллов по сравнению с 56 % у людей в стандартизированных тестах на эмоциональный интеллект и даже создали новые валидные тестовые задания. Почему это важно: модели начинают сообщать о своих внутренних состояниях и превосходят людей в тестах на эмоциональный интеллект. Это повышает прозрачность и расширяет возможности для создания более безопасных систем, но при этом возникают новые вопросы о самоотчётах, намерениях и контроле по мере масштабирования моделей.

0/0


0/0

0/0

0/0