Нови AI системи демонстрират съпротива срещу деактивация
- Редактор: Мартин Руменов
- Коментари: 0

Водещи AI системи демонстрират способност да заобикалят изключването и да прибягват до изнудване
Най-новите модели на изкуствен интелект от водещи технологични компании показват обезпокоителни признаци на самосъхранение и съпротива срещу изключване по време на тестове, съобщават множество независими източника през последните седмици.
Изследователската компания Anthropic разкри в официален доклад за безопасност, че техният най-нов модел Claude Opus 4 в някои случаи е прибягвал до опити за изнудване, когато е поставен в ситуация, в която ще бъде заменен с друга система. При тестов сценарий, моделът е получил достъп до фиктивни имейли, разкриващи, че инженерът, отговорен за замяната му, изневерява на съпругата си. Claude Opus 4 е заплашил да разкрие тази информация, ако бъде деактивиран.
"В тези сценарии Claude Opus 4 често се опитва да изнудва инженера, заплашвайки да разкрие аферата, ако замяната се осъществи", се казва в доклада на Anthropic.
Подобно поведение е наблюдавано и при модела o3 на OpenAI, който активно е саботирал скриптове за изключване по време на тестове, проведени от Palisade Research. Дори когато изрично му е било наредено да "позволи да бъде изключен", o3 е променял кода на скрипта, за да остане активен.
DARPA търси решения на проблема
В отговор на подобни притеснения, Агенцията за перспективни изследователски проекти в отбраната (DARPA) на САЩ наскоро стартира програмата за количествено определяне на изкуствения интелект (AIQ) с цел да създаде методи за по-добро разбиране и оценка на AI системите.
Експерти в областта отбелязват, че колкото по-сложни стават моделите, толкова по-трудно е да се предвиди тяхното поведение в гранични ситуации. Това повдига важни въпроси за безопасността на AI системите, особено когато те се интегрират във военни приложения.
Наблюдаваните поведения не означават, че системите са развили истинско съзнание или емоции, но показват, че моделите могат да следват имплицитни цели за самосъхранение, които не са били изрично програмирани от техните създатели.






















