Системный сдвиг

Очень часто прилетает вопрос про безопасность и конфиденциальность данных при работе с ChatGPT. Прочитал для вас условия использования сервисов OpenAI:

Идея, насколько я понял, такова: ChatGPT по умолчанию не инкорпорирует в себя ваш ввод. Он уже обучен однажды в 2021 году, и не встраивает в себя новые данные. То есть, если один из пользователей расскажет ему, к примеру, что Илон Маск купил Твиттер — он не будет использовать эту информацию для ответов другим пользователям, только вам, только в этом чате и только пока не забудет (пока этот текст не выйдет за пределы контекста). Даже если миллион пользователей расскажет ему о Твиттере — он всё равно не запомнит.

Так что тексты ваших запросов не станут автоматически доступны другим пользователям. Но они сохраняются где-то внутри ChatGPT (не в самой модели, а в её "обвеске"), и могут быть доступны сотрудникам OpenAI для анализа — скорее всего, в обобщенном виде (то есть, именно из вашего промпта возьмут только часть) и с отфильтрованной персональной информацией. Цитата: "When we fine tune our models using user-submitted data, we also use PII filtering techniques to reduce the amount of personal data used. We also only use a small sampling of data per customer for our efforts to improve model performance."

Если и в этом тоже не хотите участвовать и вы юридическое лицо, вы можете в явном виде запретить использовать ваши промпты, указав ID компании в системе OpenAI (ссылка на форму отписки есть в документе). Частным лицам отказаться не получится.

Но! Это всё касается только ChatGPT (и DALL-E). Политики OpenAI в явном виде разделяют API content и non-API content (и API consumers и non-API consumers); первый не используется для дообучения и файнтюнинга без специального заявления его владельца, второй — может использоваться. То есть, при доступе через официальный API к GPT-3.5 или GPT-4 ваш контент не будет доступен никому; сохранность и приватность его примерно такая же, как и других облачных сервисах — сама модель GPT-3.5 работает на основе Azure.

Подробнее вот тут: https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance