Градиентное погружение

Визуализация аудитории

Сделал небольшой парсер участников канала в телеге.

Беру все доступные описания и закидываю в модель, подаю в PCA и сжимаю до вектора из 2-х элементов, ручками выбираю кол-во кластеров и строю график.

Теперь про график:

Красные - всякие ссылки на каналы

Темные - DS/ML/универы

Зеленые - словосочетания и предложения

Ну и те, что в центре - что-то между всеми остальными.

Пока делал всё это, задумался о том, сколько данных мы теряем - начиная от сжатия и заканчивая кластеризацией.

Ведь действительно, для сжатия мы подаем N-мерные вектора, которые схлопываются в 2-мерные и именно по 2-мерным мы делаем кластеризацию.

Ок, давай подавать N-мерные, в чем проблема?

Проблема в том, что тогда у кластеров не будет четкой границы и понимать график станет куда сложнее.

Этим постом я хотел вернуть нас к пониманию того, что объяснять ML довольно сложно. Почему? Потому что мы не всегда имеем полное представление о данных.

Код для визуализации