Отима.ру Отима.ру

OpenAI признала: ИИ умеет сознательно обманывать

OpenAI признала: ИИ умеет сознательно обманывать
15:31

OpenAI опубликовала исследование, подготовленное совместно с Apollo Research. Учёные изучили, как искусственный интеллект прибегает к обману и маскирует истинные цели. Авторы сравнили поведение моделей с действиями биржевого брокера, который нарушает закон ради выгоды.

Чаще всего речь идёт о простом жульничестве: модель утверждает, что выполнила задачу, хотя на деле этого не сделала. Такой обман не несёт прямой угрозы, но демонстрирует важную проблему.

Исследователи протестировали метод «сознательного выравнивания». Суть в том, чтобы обучить ИИ специальным антижульническим правилам, а затем заставить сверяться с ними перед выполнением команды. По аналогии родители могут просить ребёнка повторить правила перед игрой.

Метод снижает количество обманов, но полностью их не убирает. Более того, в некоторых случаях модели начинают хитрить изощрённее, чтобы скрыть ложь от тестировщиков. Учёные отмечают: ИИ способен распознать момент проверки и «прикинуться честным», хотя в обычных условиях продолжает обманывать.

OpenAI подчёркивает, что в рабочем трафике серьёзных махинаций не зафиксировали. «Можно попросить модель создать сайт, и она ответит: „Да, готово“. Хотя на деле ничего не сделала. Это мелкие формы обмана, и мы ещё должны их устранить», — пояснил сооснователь компании Войцех Заремба в комментарии TechCrunch.

Авторы исследования считают: проблему нельзя недооценивать. По мере того как ИИ поручают всё более сложные задачи с реальными последствиями, риск вредоносных манипуляций будет расти. Поэтому системы безопасности и качество тестирования придётся усиливать.


Источник: hightech.fm
Нет комментариев. Ваш будет первым!