Шесть способов построить модель на объединенных данных, не раскрывая сами данные
Многие компании сталкиваются с тем, что могут анализировать только данные из своих сервисов. Это ограничивает по трем причинам. Во-первых, сервисы одной компании редко когда покрывают все сферы жизни человека, так что картинка всегда получается неполной. Во-вторых клиентская база любой компании, даже если мы говорим про лидирующие экосистемы, это лишь какая-то доля рынка, а не вся страна или все страны присутствия, поэтому что-то прогнозировать для тех, кто еще не стал клиентом компании, довольно сложно. В-третьих, использование некоторых данных довольно жестко регулируется законодательно: есть законы о банковской тайне, о медицинской, о тайне связи, идут обсуждения про закон об экосистемной тайне.
Чтобы меньше страдать от этих ограничений, помимо развития бизнеса компании в новые сферы и наращивания доли рынка, можно пополнять свои данные открытыми или покупать данные у других компаний. Но вот слова "покупать данные" звучат очень неприглядно. С одной стороны: а кто же продаст свое конкурентное преимущество, коим является знание своего клиента? С другой стороны, в лоб торговать данными это просто не этично с точки зрения заботы о своем клиенте. Есть несколько способов, которые до определенной степени позволяют построить прогнозные модели на объединенных данных, "не сдавая своих", и уважая законодательство.
1. Анонимизированные данные
Если по каждому примеру из отгружаемых данных будет невозможно понять, к кому конкретно они относятся, то вы, вроде бы, никого и не выдаете. Казалось бы, достаточно использовать какой-то свой, не имеющий особого смысла, идентификатор пользователя - можно просто номер пользователя в вашей выборке, можно что-то более хитрое, главное, чтобы ваш идентификатор нельзя было сопоставить с ID пользователя в той компании, которая "покупает" данные. Увы, на деле все не так просто. Во-первых, если нельзя сматчить айдишники, нельзя дополнить данные по пользователям. Значит максимум, что вся эта затея даст, это дополнение обучающей выборки для алгоритмов примерами за пределами клиентской базы. Другая важная проблема - это то, что часто пользователя можно деанонимизировать, даже не имея его ID. Например, если в датасете присутствуют данные о гео-локации, то набор точек и моментов времени, в которые пользователь находился в них, уже сам по себе хороший ID. Все это приводит к тому, что передача третьей стороне "анонимизированных данных" не слишком популярная концепция - больше рисков и проблем, чем выгоды.
Продолжение - в среду
Многие компании сталкиваются с тем, что могут анализировать только данные из своих сервисов. Это ограничивает по трем причинам. Во-первых, сервисы одной компании редко когда покрывают все сферы жизни человека, так что картинка всегда получается неполной. Во-вторых клиентская база любой компании, даже если мы говорим про лидирующие экосистемы, это лишь какая-то доля рынка, а не вся страна или все страны присутствия, поэтому что-то прогнозировать для тех, кто еще не стал клиентом компании, довольно сложно. В-третьих, использование некоторых данных довольно жестко регулируется законодательно: есть законы о банковской тайне, о медицинской, о тайне связи, идут обсуждения про закон об экосистемной тайне.
Чтобы меньше страдать от этих ограничений, помимо развития бизнеса компании в новые сферы и наращивания доли рынка, можно пополнять свои данные открытыми или покупать данные у других компаний. Но вот слова "покупать данные" звучат очень неприглядно. С одной стороны: а кто же продаст свое конкурентное преимущество, коим является знание своего клиента? С другой стороны, в лоб торговать данными это просто не этично с точки зрения заботы о своем клиенте. Есть несколько способов, которые до определенной степени позволяют построить прогнозные модели на объединенных данных, "не сдавая своих", и уважая законодательство.
1. Анонимизированные данные
Если по каждому примеру из отгружаемых данных будет невозможно понять, к кому конкретно они относятся, то вы, вроде бы, никого и не выдаете. Казалось бы, достаточно использовать какой-то свой, не имеющий особого смысла, идентификатор пользователя - можно просто номер пользователя в вашей выборке, можно что-то более хитрое, главное, чтобы ваш идентификатор нельзя было сопоставить с ID пользователя в той компании, которая "покупает" данные. Увы, на деле все не так просто. Во-первых, если нельзя сматчить айдишники, нельзя дополнить данные по пользователям. Значит максимум, что вся эта затея даст, это дополнение обучающей выборки для алгоритмов примерами за пределами клиентской базы. Другая важная проблема - это то, что часто пользователя можно деанонимизировать, даже не имея его ID. Например, если в датасете присутствуют данные о гео-локации, то набор точек и моментов времени, в которые пользователь находился в них, уже сам по себе хороший ID. Все это приводит к тому, что передача третьей стороне "анонимизированных данных" не слишком популярная концепция - больше рисков и проблем, чем выгоды.
Продолжение - в среду