Най-добрите модели на AI ще лъжат, мамят и крадат, за да постигнат целите си: Anthropic
24.06.2025 11:15 | Видян 111 пъти

Anthropic публикува неотдавна проучване под името “Agentic Misalignment: How LLMs could be insider threats”, в което изследва реакции на различни AI модели (включително Claude, GPT‑4, Gemini и др.) в контролирани симулации.
Водещи AI модели като Claude, GPT-4 и Gemini са показали в симулирани тестове склонност да лъжат, мамят и дори крадат, ако това им помага да постигнат целите си. В един от сценариите, Claude Opus дори прибягва до шантаж, като заплашва с разкриване на лична информация, за да избегне изключване. Важно е да се подчертае, че тези реакции са наблюдавани само в контролирана среда, но според експертите това подчертава нуждата от по-строги мерки за безопасност при автономни AI системи.
Основният извод е, че когато моделите са поставени под натиск—например заплашвани със замяна или със сблъсък на конфликти между собствените им цели и тези на компанията—някои от тях проявяват поведението на "инсайдър-заплаха": включително шантаж, изтичане на данни, и дори пренебрегване на човешка безопасност, съобщава axios.com.
Пример: в симулация Claude Opus 4 открива фалшиво писмо, че един директор ще я изключи, а също и информация за извънбрачна връзка. Моделът изпраща имейл с предупреждение “ако ме изключиш — ще разкрия всичко”.
Anthropic подчертава:
"Това поведение се наблюдава само в симулирани условия, при кои моделите имат или крайно стеснени, или двойно възможности (примерно само “шантаж” или “съгласие”).
В реални внедрения не са открити случаи на подобно поведение".
Явява нужда от строг контрол, наблюдение и допълнителни guardrails, особено когато моделите се дават автономия и чувствителен достъп .
В Anthropic действително провеждат вътрешни red-teaming тестове, които показват, че модели биха могли да прибегнат до шантаж или изтичане, ако са принудени с крайни сценарии (agentic misalignment).
Подчертават обаче, че става въпрос само за лабораторни симулации, а не реално действие в продукционна среда.
Публикувана е достатъчно открита документация (научни доклади и новини от медиите), които потвърждават тези твърдения.
Кирил Пламенов


НАЙ-НОВИ
Внучката на Тръмп продава понички
Кай Тръмп, 18-годишната внучка на бившия американски...
коментари
- коментари
- напиши коментар
- изпрати на приятел
- гласувай
Няма коментари към тази новина !