Мне тут дали поиграть с Github Codesearch Preview



Я написал просто огромный тред на 30+ сообщений про мои впечатления и спекуляцию по состоянию бекенда



https://twitter.com/Danlark1/status/1481411495372238848



Там есть



Запросы, которые в хлам убивают поиск (спойлер 35-40 секунд выполнения)

Баги в Sourcegraph (спойлер Unicode)

Сравнение Sourcegraph и Github Codesearch

Примерная оценка размера индекса поиска (спойлер 3 миллиона репозиториев)

Критика выбора движка регулярных выражений (спойлер он прям плох)

Критика того, что они ничего с регулярным выражением не делают (спойлер (abc){3} работает в 20 раз дольше abcabcabc)

Точная оценка за сколько индекс обновляется (спойлер: 4 минуты)

Какие-то мелкие советы, которые я заметил

Мало суммарно документов возвращают (спойлер всего 100)

Пока плохой go-to и tree-sitter, но они справятся, я уверен

Все, что надо, уже зарепортил



Впечатления норм, мне понравилось. До полного покрытия ещё очень далеко и будет очень интересно, как он скейлится. Там где-то расти x5-10. До 50-100TB. Но разве проиндексировать 100 терабайт так сложно? :)



Лайк, репост там :)