#Идея: html -> фичи (опенс сорс)
Очень часто приходится работать с веб-страницами. При этом также часто нужно информацию о них складывать в таблицу (например, для поиска или для ML). Нужен инструмент, который на вход получает ссылку / html, а на выходе выдает структурированный JSON с фичами, которые дальше либо складываются в бд, либо обрабатываются.
Эту задачу приходится делать каждый раз с нуля. Было бы круто иметь библиотеку / микросервис, который бы сам структурировал данные из HTML. Подобная штука есть для Reading view (достает заголовки, тексты, картинки из статьи, чтобы только их отобразить).
Примеры фичей, которые можно считать:
1) метатеги: title, description, keywords, logo, OG graph tags, Twitter graph tags
2) содержимое: весь текст со страницы,
3) исходящие ссылки на внутренние страницы, на внешние
4) время загрузки страницы, редиректы, айпишник, страна
Выдавая свойства страницы в структурированном виде позволит гораздо быстрее анализировать содержимое. И да, все это уже всеми делалось миллионы раз с нуля. Поэтому нужна либа. Готов поменторить.
Очень часто приходится работать с веб-страницами. При этом также часто нужно информацию о них складывать в таблицу (например, для поиска или для ML). Нужен инструмент, который на вход получает ссылку / html, а на выходе выдает структурированный JSON с фичами, которые дальше либо складываются в бд, либо обрабатываются.
Эту задачу приходится делать каждый раз с нуля. Было бы круто иметь библиотеку / микросервис, который бы сам структурировал данные из HTML. Подобная штука есть для Reading view (достает заголовки, тексты, картинки из статьи, чтобы только их отобразить).
Примеры фичей, которые можно считать:
1) метатеги: title, description, keywords, logo, OG graph tags, Twitter graph tags
2) содержимое: весь текст со страницы,
3) исходящие ссылки на внутренние страницы, на внешние
4) время загрузки страницы, редиректы, айпишник, страна
Выдавая свойства страницы в структурированном виде позволит гораздо быстрее анализировать содержимое. И да, все это уже всеми делалось миллионы раз с нуля. Поэтому нужна либа. Готов поменторить.