Поисковая система нового поколения на основе GPT-3
#ai_inside
В этом посте я расскажу об еще одной идее применения технологии GPT-3: создание поисковых систем.
Сейчас поисковики вроде Google или Яндекса работают хорошо: выдают релевантные запросу результаты за долю секунды. Казалось бы, улучшать особо нечего, да и люди давно уже и не пытались: поисковики и сейчас работают по тому же принципу, что и 20 лет назад. Этот принцип — непрерывно собирать информацию о страницах в интернете с помощью роботов-кроулеров и прогонять на них алгоритм PageRank. Затем, когда пользователь пишет запрос, искать в базе интернет-страницы, относящиеся к этому запросу, и ранжировать их по релевантности. Единственные места, куда в поисковиках добрался AI — это парсинг пользовательских запросов и ранжирование результатов. К примеру, Google применяет BERT для лучшего парсинга запросов.
Но что если переосмыслить сам принцип работы поисковика? Представьте себе ситуацию: вы хотите купить машину, приходите к эксперту по машинам и спрашиваете у него совета. Эксперт, скорее всего, ответит на ваш вопрос несколькими предложениями текста. Если же вы приходите с вопросом в Google, поисковик отвечает вам на вопрос не осмысленным текстом, а набором ссылок. Это как если бы человек на ваш вопрос кидал вам в руки пачку статей и просил вас самому разобраться в вашем вопросе.
Что если поисковик был бы больше похож на эксперта? Что если вы могли бы спросить у него вопрос, а он бы смог дать осмысленный полный ответ, вместо швыряния тоннами сайтов? Это сделало бы общение человека в поисковиком более "естественным" человеческой природе. Ну и, к тому же, более простым: больше не пришлось бы лазать по отдельным ссылкам и собирать из них ответ по кусочкам.
Исследователи из Google полагают, что создать такой поисковик удастся на основе GPT-3. Правда, чтобы ответы такого поисковика были полезны, сначала придется побороть несколько ограничений этой технологии:
- GPT-3 выдает осмысленный текст, но не всегда (если вообще когда-то) глубоко понимает суть. "Знания" GPT-3 в любой области очень поверхностны, на данном этапе развития GPT-3 вряд ли сможет заменить эксперта-доктора.
- Хочется, чтобы "умный поисковик" мог генерировать ответ на запрос на основе нескольких источников (тех же самых веб-страниц, в которых содержатся части ответа на ваш запрос). При этом хочется, чтобы GPT-3 указывал ссылки на те источники, откуда берет ту или иную информацию. Но пока что GPT-3 не умеет понимать, как именно он сгенерировал текст, какой из источников помог ему это сделать. Он просто обучается на тонее веб-страниц и затем генерирует ответ. Но без указания источников инфы ответы GPT-3 будут бесполезны — их никак нельзя будет проверить, а значит, и доверять им.
- Сильное смещение в тренировочных данных для GPT-3. В интернете тонна информации про одежду и e-commerse, но гораздо меньше — об узких медицинских тематиках. Поэтому GPT-3, обученный на данных из интернета, будет нормально шарить в e-commerse, но плохо — в медицине.
- GPT-3 иногда выдает токсичные и неприемлемые тексты. Такого в поисковике быть не должно =)
Больше об идее создать поисковик на основе GPT-3 — в статье Гугла.
Как вам идея? Верите, что это когда-нибудь станет реальностью? =)
#ai_inside
В этом посте я расскажу об еще одной идее применения технологии GPT-3: создание поисковых систем.
Сейчас поисковики вроде Google или Яндекса работают хорошо: выдают релевантные запросу результаты за долю секунды. Казалось бы, улучшать особо нечего, да и люди давно уже и не пытались: поисковики и сейчас работают по тому же принципу, что и 20 лет назад. Этот принцип — непрерывно собирать информацию о страницах в интернете с помощью роботов-кроулеров и прогонять на них алгоритм PageRank. Затем, когда пользователь пишет запрос, искать в базе интернет-страницы, относящиеся к этому запросу, и ранжировать их по релевантности. Единственные места, куда в поисковиках добрался AI — это парсинг пользовательских запросов и ранжирование результатов. К примеру, Google применяет BERT для лучшего парсинга запросов.
Но что если переосмыслить сам принцип работы поисковика? Представьте себе ситуацию: вы хотите купить машину, приходите к эксперту по машинам и спрашиваете у него совета. Эксперт, скорее всего, ответит на ваш вопрос несколькими предложениями текста. Если же вы приходите с вопросом в Google, поисковик отвечает вам на вопрос не осмысленным текстом, а набором ссылок. Это как если бы человек на ваш вопрос кидал вам в руки пачку статей и просил вас самому разобраться в вашем вопросе.
Что если поисковик был бы больше похож на эксперта? Что если вы могли бы спросить у него вопрос, а он бы смог дать осмысленный полный ответ, вместо швыряния тоннами сайтов? Это сделало бы общение человека в поисковиком более "естественным" человеческой природе. Ну и, к тому же, более простым: больше не пришлось бы лазать по отдельным ссылкам и собирать из них ответ по кусочкам.
Исследователи из Google полагают, что создать такой поисковик удастся на основе GPT-3. Правда, чтобы ответы такого поисковика были полезны, сначала придется побороть несколько ограничений этой технологии:
- GPT-3 выдает осмысленный текст, но не всегда (если вообще когда-то) глубоко понимает суть. "Знания" GPT-3 в любой области очень поверхностны, на данном этапе развития GPT-3 вряд ли сможет заменить эксперта-доктора.
- Хочется, чтобы "умный поисковик" мог генерировать ответ на запрос на основе нескольких источников (тех же самых веб-страниц, в которых содержатся части ответа на ваш запрос). При этом хочется, чтобы GPT-3 указывал ссылки на те источники, откуда берет ту или иную информацию. Но пока что GPT-3 не умеет понимать, как именно он сгенерировал текст, какой из источников помог ему это сделать. Он просто обучается на тонее веб-страниц и затем генерирует ответ. Но без указания источников инфы ответы GPT-3 будут бесполезны — их никак нельзя будет проверить, а значит, и доверять им.
- Сильное смещение в тренировочных данных для GPT-3. В интернете тонна информации про одежду и e-commerse, но гораздо меньше — об узких медицинских тематиках. Поэтому GPT-3, обученный на данных из интернета, будет нормально шарить в e-commerse, но плохо — в медицине.
- GPT-3 иногда выдает токсичные и неприемлемые тексты. Такого в поисковике быть не должно =)
Больше об идее создать поисковик на основе GPT-3 — в статье Гугла.
Как вам идея? Верите, что это когда-нибудь станет реальностью? =)