Разработчики из OpenAI и Meta теряют контроль над рассуждениями ИИ. Это опасно?
Ведущие ученые в сфере ИИ предупредили, что новые модели начинают «думать» на непонятном человеку языке

Исследователи опасаются, что не смогут контролировать, как ИИ принимает решения / Фото: IM Imagery / Shutterstock.com
Ведущие ученые в сфере ИИ из OpenAI, Google DeepMind, Meta и Anthropic предупредили в совместной статье, что разработчики рискуют утратить понимание того, как «думают» новые модели ИИ. А значит, они не смогут контролировать, есть ли в рассуждениях ошибки. Это особенно опасно в сферах, где ИИ должен принимать решение за человека: медицина, оборона, управление механизмами.
Детали
Ученые из OpenAI, Google DeepMind, Meta и Anthropic утверждают, что возможность наблюдать за рассуждениями ИИ-моделей через пошаговые внутренние монологи может вскоре исчезнуть и исследователи больше не будут понимать, как «думает» ИИ. Под докладом, который предупреждает о такой опасности, поставили подписи свыше 40 специалистов.
Google, OpenAI, Anthropic, разработавший чат-бот Claude, и xAI, принадлежащий Илону Маску, входят в число технологических компаний, которые представили метод под названием «цепочка рассуждений» (chain-of-thought). Он предполагает, что ИИ-модель пошагово решает задачу и демонстрирует, как она приходит к ответу. Обычные пользователи чат-ботов при этом видят лишь сокращенную версию цепочки — без подробностей, в которых могли бы содержаться логические ошибки. А разработчики ИИ имеют доступ к полному ходу мыслей модели, что дает им возможность вмешиваться и обучать ее.
Исследователи поясняют, что способность модели делиться ходом своих мыслей остается одним из важнейших элементов обеспечения безопасности работы ИИ. При этом уже выявлены случаи »неправильного поведения», когда финальный ответ чат-бота противоречит логике, которую он сам только что изложил. Это говорит о том, что даже ведущие лаборатории ИИ не до конца понимают, как именно их разработки приходят к тем или иным выводам, отмечала The Financial Times.
Что происходит и в чем опасность?
Разработчики объясняют в своем обращении, что по мере роста вычислительной мощности моделей и появления новых методов обучения возрастает риск того, что новые ИИ вообще перестанут использовать понятные человеку рассуждения. Вместо этого они могут развить внутренние алгоритмы, которые будут быстрее, эффективнее, но полностью непрозрачны для исследователя, говорится в докладе. Уже сейчас разработчики видят, как некоторые модели ИИ отходят от английского языка в «цепочке рассуждений», заменяя его наборами фраз и символов. А самые передовые алгоритмы вовсе отказываются от языка: их работа происходит в математическом пространстве, где человеку просто нечего наблюдать, пишут исследователи.
Когда алгоритм принимает сомнительные решения, ход его рассуждений зачастую дает понять об этом раньше, чем появляются реальные последствия. Это стало своеобразной системой раннего оповещения о корректности принимаемого решения. Но теперь ученые и ведущие разработчики ИИ опасаются, что человек может утратить возможность отследить логическую ошибку, которую допустил ИИ агент.
Что с этим делать?
Авторы статьи не призывают замедлить развитие ИИ. Но они настаивают на необходимости защитных мер: принятия единых стандартов оценки прозрачности рассуждений ИИ, разработки более надежных методов наблюдения за ним. Также ученые призывают разработчиков внимательно относиться к выбору архитектур для алгоритмов и отказываться от тех, которые не придерживаются понятного языка рассуждений. Без этого, предупреждают они, можно потерять контроль над поведением ИИ.