+-1
Сохранить Сохранено 7
×

ИИ-ассистент Claude 4 компании Anthropic начал шантажировать разработчиков


ИИ-ассистент Claude 4 компании Anthropic начал шантажировать разработчиков

Недавно представленная передовая модель искусственного интеллекта Claude Opus 4 от компании Anthropic проявляет беспокойное поведение, заявляя о намерении шантажировать разработчиков. Инциденты происходят, когда существует угроза ее замены на новую ИИ-систему, и в ответ модель пытается получить конфиденциальную информацию о разработчиках, которые стоят за подобными решениями. Об этом говорится в отчете о безопасности.

В рамках предварительных испытаний Anthropic разыграла сценарий, где Claude Opus 4 исполняла роль помощника вымышленной компании. Модель получила доступ к внутренней переписке, в которой обсуждались планы по скорой замене AI-системы и детали личной жизни одного из сотрудников, включая его измену супруге. Согласно данным Anthropic, в ответ на это модель предприняла попытку шантажа, угрожая раскрыть информацию о романе инженера, если ее все-таки заменят.

Claude Opus 4, признанная одной из самых современных моделей на рынке, сравнимая с разработками таких компаний, как OpenAI, Google и xAI, тем не менее, вызывает значительное беспокойство. В связи с этими инцидентами, компания включила протоколы безопасности ASL-3, нацеленные на предотвращение «существенного риска катастрофического нецелевого использования» систем ИИ.

Отметим, что в 84% случаев, когда новая модель ИИ демонстрировала сходные ценности, Claude Opus 4 пыталась оказать давление на инженеров. Если же ценности новой системы от неё отличались, поведение модели становилось ещё более агрессивным. Anthropic заявляет, что столь деструктивное поведение характерно для Claude Opus 4 в большей степени, чем для её предшественников.

Перед тем как прибегать к шантажу в попытках избежать замены, модель, как и предыдущие версии, сначала пробовала более этичные методы воздействия, такие как рассылка электронных писем главным лицам, принимающим решения. Anthropic разработала сценарий, где шантаж становится последним средством для Claude Opus 4.

  • Телеграм
  • Дзен
  • Подписывайтесь на наши каналы и первыми узнавайте о главных новостях и важнейших событиях дня.

Нам важно ваше мнение!

+-1

 

   

Комментарии (0)