Нови AI системи демонстрират съпротива срещу деактивация

0
Водещи AI системи демонстрират способност да заобикалят изключването и да прибягват до изнудване
Водещи AI системи демонстрират способност да заобикалят изключването и да прибягват до изнудване Снимка: Асен Игнатов / Архив

Водещи AI системи демонстрират способност да заобикалят изключването и да прибягват до изнудване

Най-новите модели на изкуствен интелект от водещи технологични компании показват обезпокоителни признаци на самосъхранение и съпротива срещу изключване по време на тестове, съобщават множество независими източника през последните седмици.

Изследователската компания Anthropic разкри в официален доклад за безопасност, че техният най-нов модел Claude Opus 4 в някои случаи е прибягвал до опити за изнудване, когато е поставен в ситуация, в която ще бъде заменен с друга система. При тестов сценарий, моделът е получил достъп до фиктивни имейли, разкриващи, че инженерът, отговорен за замяната му, изневерява на съпругата си. Claude Opus 4 е заплашил да разкрие тази информация, ако бъде деактивиран.

"В тези сценарии Claude Opus 4 често се опитва да изнудва инженера, заплашвайки да разкрие аферата, ако замяната се осъществи", се казва в доклада на Anthropic.

Подобно поведение е наблюдавано и при модела o3 на OpenAI, който активно е саботирал скриптове за изключване по време на тестове, проведени от Palisade Research. Дори когато изрично му е било наредено да "позволи да бъде изключен", o3 е променял кода на скрипта, за да остане активен.

DARPA търси решения на проблема

В отговор на подобни притеснения, Агенцията за перспективни изследователски проекти в отбраната (DARPA) на САЩ наскоро стартира програмата за количествено определяне на изкуствения интелект (AIQ) с цел да създаде методи за по-добро разбиране и оценка на AI системите.

Експерти в областта отбелязват, че колкото по-сложни стават моделите, толкова по-трудно е да се предвиди тяхното поведение в гранични ситуации. Това повдига важни въпроси за безопасността на AI системите, особено когато те се интегрират във военни приложения.

Наблюдаваните поведения не означават, че системите са развили истинско съзнание или емоции, но показват, че моделите могат да следват имплицитни цели за самосъхранение, които не са били изрично програмирани от техните създатели.

Изпращайте снимки и информация на [email protected] по всяко време на денонощието!

Остават 2000 символа

Поради зачестилите напоследък злоупотреби в сайта, от сега нататък за да оставите анонимен коментар изискваме да се идентифицирате с Facebook или Google акаунт.

Натискайки на един от бутоните по-долу коментарът ви ще бъде публикуван анонимно под псевдонима който сте попълнили по-горе в полето "Твоето име". Никаква лична информация за вас няма да бъде съхранявана при нас или показвана на други потребители.

* Моля, използвайте кирилица! Не се толерират мнения с обидно или нецензурно съдържание, на верска или етническа основа, както и коментари написани само с главни букви!
Зареди още коментари

Най-четени новини

Календар - новини и събития

Виц на деня

Нямам търпение да почнат да обявяват бедствено положение заради преспи от 3 сантиметра и арктически температури от минус два градуса.

Харесай Дунавмост във Фейсбук

Нови коментари