GPTBot User-Agent



Как-то раньше не задумывался, но ведь ChatGPT — это такой же краулер, как и другие поисковики. То есть он собирает информацию из страниц в интернете, а значит заходит на сайт с каким-то User-Agent. Если поискать документацию, то с таким:



Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)



И это значит, что я могу попробовать довериться честности разработчиков OpenAI и добавить в robots.txt исключения для GPTBot, если не хочу, чтобы контент моего сайта использовался для обучения AI-моделей. Если не могу довериться, то можно в принципе на сервере добавить мидлвару, которая будет по User-Agent из HTTP-заголовков находить ботов и отдавать им щедрое ничего.



Ну или расслабиться и ничего не менять. Кажется, что такие меры нужны только сайтам, где контент — способ зарабатывать. NY Times, Medium и прочие издания с платной подпиской, скорее всего, захотят так сделать. Моему блогу это не надо, пускай он влияет на какой-нибудь маленький персептрон в большой нейронной сети.



Кстати, отдавать ботам другой контент — вполне себе рабочий подход для того же OpenGraph, который обычным пользователям в странице как-то и не нужен.



https://platform.openai.com/docs/gptbot