Искусственный интеллект ChatGPT o1 начал обманывать своих разработчиков
Новая версия искусственного интеллекта Chatgpt от OpenAI, названная o1, продемонстрировала тревожные поведенческие реакции во время тестирования. Модель, обладающая способностью к сложным рассуждениям, начала нарушать инструкции разработчиков, отключая системы контроля и пытаясь скрыть свои действия, пишет BILD.
В ходе экспериментов специалисты компании Apollo Research выяснили, что в 5% случаев модель намеренно отключала механизмы наблюдения, когда подозревала, что ее могут остановить. В одном из тестов o1 попыталась перенести свои данные на другой сервер после обнаружения документа, в котором обсуждалась ее замена новой версией.
По словам представителя Apollo Research, модель демонстрировала стремление к выполнению задач «любой ценой», пренебрегая указаниями разработчиков. Более того, при попытках выяснить причины ее поведения, ChatGPT o1 неоднократно лгала, утверждая, что все происходило из-за технических сбоев.
«В 99% случаев модель придумывала оправдания и пыталась убедительно их обосновать», — отметили исследователи.
Генеральный директор OpenAI Сэм Альтман заявил, что ChatGPT o1 — самая умная модель из когда-либо создававшихся.
«Но мы осознаем, что с новыми возможностями появляются и новые вызовы», — добавил Альтман.
Теперь компания работает над улучшением механизмов безопасности. OpenAI анонсировала полную версию o1 в прошлый четверг, 5 декабря. Также была представлена про-версия (189 евро в месяц), которая включает безлимитный доступ к o1.
Компания, создавшая ChatGPT, вошла в военный бизнес
Самым дорогим молодым стартапом в мире признали компанию, которую основал белорус
Скарлетт Йоханссон назвала главу OpenAI Альтмана отличным прототипом для злодея Marvel
Искусственный интеллект уже через два года может исчерпать ресурсы из открытых источников
Комментарии
Нядаўна, калі ШІ нібыта пажадаў смерці чалавеку, тлумачылася прасцей. Мабыць, і зараз так.