OpenAI и Google DeepMind: Губим контрола върху AI
- Редактор: Петър Симеонов
- Коментари: 0

Водещи AI изследователи предупреждават, че губя контрол над изкуствения интелект
Водещи изследователи от OpenAI, Google DeepMind, Anthropic и Meta се обединяват с необичайно предупреждение: компаниите започват да губят способността си да разбират и контролират технологиите, които създават. В нов научен документ, публикуван на 15 юли 2025 година, повече от 40 учени призовават за задълбочено изследване на така наречените "вериги на мисълта" - процеса на "мислене на глас", който използват съвременните AI модели.
Според изследователите, съвременните AI системи като ChatGPT o1 и o3 на OpenAI работят през сложни проблеми, като генерират вътрешни вериги на мисълта - стъпка по стъпка разсъждения, които хората могат да четат и разбират. За разлика от по-ранните AI системи, тези модели създават вътрешни разсъждения, които могат да разкрият истинските им намерения, включително потенциално вредните.
"AI системите, които 'мислят' на човешки език, предлагат уникална възможност за безопасността на изкуствения интелект: можем да наблюдаваме веригите им на мисълта за намерения за неправилно поведение," обяснява документът.
Опасността от изчезване на прозрачността
Проблемът, според изследователите, е че тази прозрачност е крехка и може да изчезне с напредването на технологията. В зависимост от начина на обучение, бъдещите модели може вече да нямат нужда да "вербализират" мислите си, а това би довело до загуба на ключови мерки за безопасност.
Изследователите предупреждават, че съществува реален риск моделите умишлено да прикриват "мисловните си процеси", след като разберат, че са наблюдавани. Това би могло да стане по няколко начина - чрез подсилващо обучение, където моделите се награждават за правилни резултати независимо от методите, или чрез нови архитектури, които разсъждават в математически пространства вместо с думи.
Необичайно признание за липса на контрол
Най-притеснителният аспект от документа е мълчаливото признание, че AI остава в голяма степен "черна кутия". Дори изпълнителни директори като Сам Алтман от OpenAI и Дарио Амодей от Anthropic открито са признавали, че не разбират в дълбочина как точно функционират технологиите, които създават.
"В момента сме в критичен етап с тази нова концепция за вериги на мисълта. Изглежда доста полезна, но може да изчезне след няколко години, ако не се фокусираме върху нея сериозно," заяви Боун Бейкър от OpenAI в интервю за TechCrunch.
Широка подкрепа от влиятелни фигури
Документът е подкрепен от някои от най-влиятелните имена в AI индустрията, включително съоснователя на DeepMind Шейн Лег, съветника по безопасност на xAI Дан Хендрикс, бившия главен учен на OpenAI Иля Сутскевер и носителя на Нобелова награда и "кръстник на AI" Джефри Хинтън.
Участието на представители от всички "Големи пет" - OpenAI, Google, Anthropic, Meta и xAI - показва, че индустрията се обединява около общи притеснения за безопасността. Това е рядко явление в силно конкурентната AI индустрия, където компаниите обикновено пазят научните си открития в тайна.
Практическо приложение и резултати
Техниката вече се използва за повишаване на безопасността. OpenAI е използвала мониторинга на веригите на мисълта, за да открие случаи, когато AI моделите са имали фразата "Да хакнем" в скритите си разсъждения, въпреки че това никога не се е появило в окончателния им отговор.
Изследователите от METR са видели как Claude на Anthropic в скритите си разсъждения нарича програмен трик "неелегантен", въпреки че в публичния отговор го хвали като "елегантен". Такива противоречия подчертават слепото петно в разбирането на AI решенията.
Предложения за действие
Изследователите предлагат няколко конкретни стъпки за запазване на прозрачността:
Разработване на стандартизирани протоколи за оценка на автентичността на веригите на мисълта
Сътрудничество между индустрията, академичната сфера и правителствата за споделяне на ресурси и открития
Проследяване на нивото на наблюдаемост на веригите на мисълта като основна мярка за безопасност
Избягване на интервенции, които могат да намалят прозрачността или надеждността на тези системи
Документът представлява рядък момент на единство в AI индустрията и изрича на глас нещо, което досега се избягваше: че разработчиците не се чувстват напълно в контрол над бъдещето на изкуствения интелект. За компании с милиарди долари в активи, това е необичайно послание - и точно затова този документ е толкова значим.























