GPTBot User-Agent
Как-то раньше не задумывался, но ведь ChatGPT — это такой же краулер, как и другие поисковики. То есть он собирает информацию из страниц в интернете, а значит заходит на сайт с каким-то User-Agent. Если поискать документацию, то с таким:
Ну или расслабиться и ничего не менять. Кажется, что такие меры нужны только сайтам, где контент — способ зарабатывать. NY Times, Medium и прочие издания с платной подпиской, скорее всего, захотят так сделать. Моему блогу это не надо, пускай он влияет на какой-нибудь маленький персептрон в большой нейронной сети.
Кстати, отдавать ботам другой контент — вполне себе рабочий подход для того же OpenGraph, который обычным пользователям в странице как-то и не нужен.
Как-то раньше не задумывался, но ведь ChatGPT — это такой же краулер, как и другие поисковики. То есть он собирает информацию из страниц в интернете, а значит заходит на сайт с каким-то User-Agent. Если поискать документацию, то с таким:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
И это значит, что я могу попробовать довериться честности разработчиков OpenAI и добавить в robots.txt
исключения для GPTBot
, если не хочу, чтобы контент моего сайта использовался для обучения AI-моделей. Если не могу довериться, то можно в принципе на сервере добавить мидлвару, которая будет по User-Agent из HTTP-заголовков находить ботов и отдавать им щедрое ничего.Ну или расслабиться и ничего не менять. Кажется, что такие меры нужны только сайтам, где контент — способ зарабатывать. NY Times, Medium и прочие издания с платной подпиской, скорее всего, захотят так сделать. Моему блогу это не надо, пускай он влияет на какой-нибудь маленький персептрон в большой нейронной сети.
Кстати, отдавать ботам другой контент — вполне себе рабочий подход для того же OpenGraph, который обычным пользователям в странице как-то и не нужен.
https://platform.openai.com/docs/gptbot