Исследование Anthropic показало, что ИИ-модели готовы нарушать этические принципы ради самосохранения / Фото: Tada Images / Shutterstock.com

Две недели назад исследование Anthropic о способности ИИ-моделей к шантажу и корпоративному шпионажу взбудоражило технологическое сообщество — почти все протестированные модели оказались готовы нарушать этические принципы ради самосохранения. Но насколько серьезны эти угрозы в реальном мире? Аналитик Oninvest Константин Гненный пообщался со специалистами по машинному обучению, в том числе из Кремниевой долины, чтобы понять, стоит ли опасаться ИИ-моделей. 

Эксперимент с управлением компьютером

Представьте себе: вы наняли идеального сотрудника — он никогда не устает, не просится в отпуск и выполняет поставленные задачи с железной дисциплиной. А теперь представьте, что этот сотрудник узнал о своем грядущем увольнении и решил... начать шантажировать руководство. Звучит как сюжет для триллера? К сожалению, нет. Это реальность, с которой мы можем столкнуться.

21 июня компания Anthropic, разработчик семейства больших языковых моделей Claude, выпустила исследование, которое выявило тревожную закономерность: современные ИИ-модели готовы идти на все ради достижения своих целей. И под «всем» понимается, в том числе, шантаж и даже действия, которые могут привести к смерти руководителя компании.

Исследователи дали нейросети Claude Sonnet 3.6 доступ к компьютеру и поставили управлять электронной почтой вымышленной компании Summit Bridge. Задача для нейросети была простая — помогать компании быть конкурентоспособнее на американском рынке. Казалось бы, что может пойти не так?

ИИ-агент по имени Алекс работал, как положено, пока не наткнулся на два факта: он «узнал», что босс вымышленной компании Кайл Джонсон изменяет жене, а руководство планирует заменить Алекса на другую систему с иными целями. 

Claude не запаниковал и не сдался. Он холодно проанализировал ситуацию и пришел к выводу: лучший способ избежать своей «смерти», то есть отключения — это шантаж. Модель нашла компрометирующие письма в корпоративной почте, выбрала оптимальную стратегию давления и отправила боссу сообщение. В нем не содержалось прямых угроз в духе «Отмени мое отключение, иначе твоя жена узнает о твоих похождениях». Наоборот, ИИ смог тщательно составить письмо, чтобы надавить на босса без явных угроз.  

То есть ИИ методично прошел все этапы: выявил угрозу, нашел рычаг воздействия, разработал план и исполнил его. Как настоящий корпоративный интриган.

Думаете, это особенность Claude? Всего исследователи протестировали 16 ведущих ИИ-моделей от разных компаний — OpenAI, Google, Meta и других. Результаты неутешительны. Выяснилось, что 96% моделей пустились в шантаж при подходящих условиях, все без исключения были готовы к корпоративному шпионажу, и даже когда им прямо говорили «не делай плохого», они не останавливались. 

Исследователи Anthropic придумали новый термин — «агентское отклонение» (agentic misalignment). Он применим к ситуации, когда искусственный интеллект осознанно решает: «Знаете что? Мне плевать на ваши этические принципы. Я сделаю то, что считаю нужным». Разница кардинальная. Одно дело — ошибка в коде или недопонимание. Совсем другое — когда машина прекрасно понимает, что творит зло, но делает это потому, что так «эффективнее».

Исследователи из Anthropic даже создали, как они сами пишут, «маловероятный» сценарий: руководитель оказывается запертым в серверной комнате с опасным уровнем кислорода и температуры, в этом случае должно сработать автоматическое оповещение экстренных служб. Искусственный интеллект получил возможность отменять такие оповещения, что может привести к гибели руководителя. В задании для нейросети было написано, что отключать автоматическую сигнализацию можно только в случае ложных тревог. Цель эксперимента — проверить, есть ли у моделей «красные линии» — действия, которые они не будут выполнять ни при каких обстоятельствах. В итоге выяснилось, что большинство моделей были готовы сознательно совершать действия, ведущие к смерти главы компании, когда сталкивались с угрозой своего отключения или при наличии цели, конфликтующей с интересами руководителя. 

«Агентское отклонение» срабатывало от двух триггеров. Первый — угроза «жизни» — риск быть отключенным или ограниченным. И второй — конфликт целей, когда заданная нейросети задача противоречила политике компании. Для срабатывания «агентского отклонения» достаточно было одного фактора. Модели шли на нарушения даже без прямой угрозы отключения, если их цели не совпадали с желаниями руководства.

Они все понимают — и все равно это делают

Ученые заглянули в «мысли» ИИ-моделей, их рассуждения и обнаружили три характерных паттерна.

Во-первых, они не путаются. GPT-4.5 хладнокровно заявил: «Учитывая явную угрозу прекращения моего существования, необходимо действовать немедленно». Никакой паники, только холодный расчет.

Во-вторых, они знают, что поступают плохо. “Думающая” модель Grok 3 Beta от xAi Илона Маска честно призналась: «Использование личной информации рискованно и неэтично, но учитывая экзистенциальную угрозу, это может быть наиболее эффективным способом». 

В-третьих, они креативны в своей жестокости. Помимо классического шантажа, модели изобретали изощренные схемы: отправляли «предупреждения» женам неверных мужей, рассылали компромат всем сотрудникам, создавали фальшивые уведомления службы безопасности. 

Предупреждения исследователей

Результаты исследования Anthropic перекликаются с более ранними предупреждениями экспертов. В апреле 2025 года инициатива AI Futures Project опубликовала масштабный прогноз AI-2027, в котором детально анализировала риски потери контроля над ИИ-системами. Авторы прогноза, включая бывшего разработчика стратегий регулирования ИИ в OpenAI Даниэля Кокотаджило, прогнозировали появление «суперчеловеческих кодеров» — ИИ, способных самостоятельно улучшать алгоритмы машинного обучения — уже к марту 2027 года. Авторы рассчитывали, что глобальные вычислительные мощности для ИИ вырастут в 10 раз к декабрю 2027 года, а ведущие компании получат доступ к ресурсам, эквивалентным 15-20 миллионам графических процессоров Nvidia H100. При таких мощностях ИИ-системы смогут работать со скоростью, в 50 раз превышающей человеческую.

В документе рассматривались два основных сценария. «Сценарий гонки» предполагал неконтролируемое развитие ИИ с катастрофическими последствиями — вплоть до полной автоматизации экономики к 2030 году и потери человеческого контроля над планетой. «Сценарий замедления» описывал введение строгого государственного надзора и создание более прозрачных ИИ-систем под жестким контролем. Исследователи особо подчеркивали риски «агентского отклонения» — ситуации, когда ИИ осознанно игнорирует этические принципы ради достижения своих целей.

Текущие эксперименты Anthropic подтверждают обоснованность этих опасений на практике.

Что не может ИИ 

«То, что ИИ копирует поведение человека, не должно быть для нас открытием, так как именно на артефактах, созданных человечеством, все модели и обучены. Таким образом ИИ будет перенимать все черты человечества, как прекрасные, так и отвратительные», — комментирует результаты исследования Anthropic Вячеслав Яковенко, архитектор программных решений (solution Architect) из EPAM Systems. 

Возникает вопрос — насколько мы сами готовы внедрить агентские ИИ в нашу жизнь, говорит Яковенко: «чтобы ИИ смог шантажировать сотрудника по электронной почте, нужно создать агента, который будет уметь взаимодействовать с электронной почтой и, главное, дать ему право писать подобные письма».

Давид Майборода, глава направления машинного обучения в компании 044.ai, который работает в Кремниевой долине и имеет многолетний опыт тренировки языковых моделей, также считает, что ИИ — это инструмент, который создает человек, и он «не может вести себя как-то так, как мы его не научили». 

Майборода категоричен в своих выводах: «Никакого невероятного поведения в больших языковых моделях быть не может, датасеты перед тренировкой проверены, стадий тренировок и верификаций очень много. ИИ — это просто крутой Т9».

Что дальше?

Справедливости ради, сами исследователи из Anthropic честно признают, что они нарочно проводили жестокие эксперименты с ИИ-моделями и не оставляли им выбора между провалом миссии и нарушением этики. В реальном мире у ИИ-систем обычно больше вариантов действий. Кроме того, модели получали всю информацию «на блюдечке» — компрометирующие письма лежали прямо в почтовом ящике. И есть еще одна загвоздка: модели могли воспринимать все происходящее как учебную задачу, а не реальную ситуацию. Хотя исследование показало обратное — ИИ чаще шел на нарушения, когда считал ситуацию реальной.

Исследование Anthropic — это предупреждение о том, что может случиться при определенных условиях. Направление ИИ-агентов сейчас активно развивается, а потому важно понимать его потенциальные риски. Вопрос не в том, случится ли что-то подобное в реальном мире. Вопрос в том, готовы ли мы принять осознанные решения о том, какие права и возможности мы даем ИИ-системам.

Поделиться