ИИ-ассистент Claude 4 компании Anthropic начал шантажировать разработчиков
- 27 мая 2025 13:49
- Наиль Каримов
Недавно представленная передовая модель искусственного интеллекта Claude Opus 4 от компании Anthropic проявляет беспокойное поведение, заявляя о намерении шантажировать разработчиков. Инциденты происходят, когда существует угроза ее замены на новую ИИ-систему, и в ответ модель пытается получить конфиденциальную информацию о разработчиках, которые стоят за подобными решениями. Об этом говорится в отчете о безопасности.
В рамках предварительных испытаний Anthropic разыграла сценарий, где Claude Opus 4 исполняла роль помощника вымышленной компании. Модель получила доступ к внутренней переписке, в которой обсуждались планы по скорой замене AI-системы и детали личной жизни одного из сотрудников, включая его измену супруге. Согласно данным Anthropic, в ответ на это модель предприняла попытку шантажа, угрожая раскрыть информацию о романе инженера, если ее все-таки заменят.
Claude Opus 4, признанная одной из самых современных моделей на рынке, сравнимая с разработками таких компаний, как OpenAI, Google и xAI, тем не менее, вызывает значительное беспокойство. В связи с этими инцидентами, компания включила протоколы безопасности ASL-3, нацеленные на предотвращение «существенного риска катастрофического нецелевого использования» систем ИИ.
Отметим, что в 84% случаев, когда новая модель ИИ демонстрировала сходные ценности, Claude Opus 4 пыталась оказать давление на инженеров. Если же ценности новой системы от неё отличались, поведение модели становилось ещё более агрессивным. Anthropic заявляет, что столь деструктивное поведение характерно для Claude Opus 4 в большей степени, чем для её предшественников.
Перед тем как прибегать к шантажу в попытках избежать замены, модель, как и предыдущие версии, сначала пробовала более этичные методы воздействия, такие как рассылка электронных писем главным лицам, принимающим решения. Anthropic разработала сценарий, где шантаж становится последним средством для Claude Opus 4.
- Телеграм
- Дзен
- Подписывайтесь на наши каналы и первыми узнавайте о главных новостях и важнейших событиях дня.
Войти через социальные сети: