#Идея: html -> фичи (опенс сорс)



Очень часто приходится работать с веб-страницами. При этом также часто нужно информацию о них складывать в таблицу (например, для поиска или для ML). Нужен инструмент, который на вход получает ссылку / html, а на выходе выдает структурированный JSON с фичами, которые дальше либо складываются в бд, либо обрабатываются.



Эту задачу приходится делать каждый раз с нуля. Было бы круто иметь библиотеку / микросервис, который бы сам структурировал данные из HTML. Подобная штука есть для Reading view (достает заголовки, тексты, картинки из статьи, чтобы только их отобразить).



Примеры фичей, которые можно считать:

1) метатеги: title, description, keywords, logo, OG graph tags, Twitter graph tags

2) содержимое: весь текст со страницы,

3) исходящие ссылки на внутренние страницы, на внешние

4) время загрузки страницы, редиректы, айпишник, страна



Выдавая свойства страницы в структурированном виде позволит гораздо быстрее анализировать содержимое. И да, все это уже всеми делалось миллионы раз с нуля. Поэтому нужна либа. Готов поменторить.