Хочется Open Source тулзы, которые структурируют все подряд: вебсайты, картинки, аудио, временные ряды, ... То есть на выходе возвращают огромный JSON с кучей полезной информацией. Пусть выдают все, что можно, а пользователь уже сам решит, что ему нужно. Пусть работают долго, зато будет экономить кучу времени на старте. Оформить это все в идеале в виде микросервиса (докер с REST API), чтобы можно было недумая запустить это куда-нибудь крутиться (например, бесплатный Heroku) и сразу пользоваться.



Например, есть ссылка на вебсайт. Тулза на выходе для него выдает кучу фичей:

🔺 Скорость скачки, вес страницы, айпишник

🔺 Необходим ли доп рендеринг браузером

🔺 Исходящие ссылки + их классификация: вот linkedin, вот github, вот facebook

🔺 Метаданные, keywords, most freq words in text

🔺 Стек технологий?



Для картинки:

🔹 Есть ли лицо

🔹 Если есть, то предсказать демографию, выдать вектор для измерения похожести с другими юзерами

🔹 Есть ли объекты на фото

🔹 Метаданные картинки



И это только вершина айсберга, я думаю, списки можно сильно дополнить. Во многих проектах некоторые из этих задач делаются с нуля, что порой отнимает много времени на дебаг, хендлинг ошибок и гугление. Было бы очень полезно иметь инструмент, который бы структурировал данные по-максимому, позволив творцам творить.