ChatGPT потенциально уязвима — проблема в данных для обучения.
Как пишут исследователи, всего за 60 долларов США мы могли бы отравить 0,01% наборов данных LAION-400 или COYO-700 в 2022 году. Идея в следующем: ChatGPT и другие подобные AI-модели обучаются на нескольких огромных и обновляемых датасетах. Эти датасеты агрегируются из множества публичных источников, которые считаются "условно верифицированными". Проблема в том, что время от времени некоторые из этих URL становятся доступны для регистрации просто потому, что время их регистрации истекает. И злоумышленник, потратив достаточно времени и денег, может "захватить" некоторое количестве верифицированных доменов. И подменить их содержание.
Все это можно назвать "проблемой вредоносного обучения", когда искуственный интеллект изначально обучается на в лучшем случае некорректных, а в худшем случае — осознанно модифицированных данных. Валидация датасета, вероятно, не производится — при исходном объеме это достаточно затруднительно. Отчасти, добросовестных пользователей защищает тот факт, что исходные данные действительно огромные, и для того, чтобы всерьез повлиять на исходный датасет нужно очень много сил и времени.
Выглядит так, как будто продвижение "вредоносных вставок" становится отдельной и очень серьезной задачей — они не должны слишком сильно пересекаться или противоречить другим источникам. Плюс если у тебя "захвачено" несколько верифицированных доменов, ты можешь пробовать активнее продвигать свой код. И в итоге запрос типа "GPT подскажи как написать кусок кода вот этой библиотеки" уже будет давать пример с закладкой внутри.
Не очень понятно, на сколько проблема велика и реальна, но теоретическая возможность "заразить" исходные данные для работы есть, а при определенном упорстве вероятность того, что чат-бот с ИИ реально использует код с вредоносными вставками изрядно повышаются. Будем посмотреть, но уже сейчас очевидно, что уязвимости AI-генераторов со временем будут только проявляться.
Как пишут исследователи, всего за 60 долларов США мы могли бы отравить 0,01% наборов данных LAION-400 или COYO-700 в 2022 году. Идея в следующем: ChatGPT и другие подобные AI-модели обучаются на нескольких огромных и обновляемых датасетах. Эти датасеты агрегируются из множества публичных источников, которые считаются "условно верифицированными". Проблема в том, что время от времени некоторые из этих URL становятся доступны для регистрации просто потому, что время их регистрации истекает. И злоумышленник, потратив достаточно времени и денег, может "захватить" некоторое количестве верифицированных доменов. И подменить их содержание.
Все это можно назвать "проблемой вредоносного обучения", когда искуственный интеллект изначально обучается на в лучшем случае некорректных, а в худшем случае — осознанно модифицированных данных. Валидация датасета, вероятно, не производится — при исходном объеме это достаточно затруднительно. Отчасти, добросовестных пользователей защищает тот факт, что исходные данные действительно огромные, и для того, чтобы всерьез повлиять на исходный датасет нужно очень много сил и времени.
Выглядит так, как будто продвижение "вредоносных вставок" становится отдельной и очень серьезной задачей — они не должны слишком сильно пересекаться или противоречить другим источникам. Плюс если у тебя "захвачено" несколько верифицированных доменов, ты можешь пробовать активнее продвигать свой код. И в итоге запрос типа "GPT подскажи как написать кусок кода вот этой библиотеки" уже будет давать пример с закладкой внутри.
Не очень понятно, на сколько проблема велика и реальна, но теоретическая возможность "заразить" исходные данные для работы есть, а при определенном упорстве вероятность того, что чат-бот с ИИ реально использует код с вредоносными вставками изрядно повышаются. Будем посмотреть, но уже сейчас очевидно, что уязвимости AI-генераторов со временем будут только проявляться.