Know Your Data — сервис от Google для изучения датасетов

#tools



Первый шаг в работе любого дата саентиста — изучение данных. Причем глазами: посмотреть на несколько примеров картинок из датасета, построить распределения по разным параметрам (пол, возраст, etc), оценить сбалансированность выборки и т.д.

Когда данных много, сделать это становится сложнее: взгляд на отдельные картинки из датасета не составит общего представления о данных, а чтобы посмотреть на "общую картину", придется писать много кода или чуть ли не свой UI.



Сервис Know Your Data предоставляет решение для этой проблемы: UI для удобного исследования больших датасетов.

С помощью удобного интерфейса сервиса можно:

- разделить данные на группы по различным атрибутам (например, картинки лиц людей на группы по возрасту, полу, цвету волос и т.д.) и исследовать каждую группу в отдельности и между собой;

- получить статистики по различным атрибутам;

- исследовать данные на fairness и bias: насколько сбалансированы данные по каждому из атрибутов;

- фильтровать данные по различным признакам, включая "резкость" и "контраст" для изображений (может быть полезно для поиска выбросов)



Все это — в real-time. Гораздо быстрее, чем писать код на питоне и смотреть на графики в jupyter notebook.



Сейчас сервис работает в бета-версии. Для изучения доступны около 70 датасетов. В будущем обещают добавить возможность загружать свой датасет. Очень ждем именно этой новости =)



Ссылка на сервис: Know Your Data