Всегда ли чем больше данных, тем лучше? Правильный ответ - смотря для кого и смотря где. Вот, например: предположим, разнообразные данные о человеке учитываются каким-то умным алгоритмом при вопросах о приеме на работу, выдаче кредитов и т.д. А человек этот живет в криминогенном районе, и на него у полиции данных много больше, чем на среднего гражданина. А на некоторых фотках он вообще рядом с плохими людьми засветился... Короче, возможно появление плохой обратной связи: чем больше данных на человека из подозрительного района, тем больше шансов, что ему оттуда не выбраться, потому что он сам становится слишком подозрительным для алгоритма. Очень правильный вопрос о влиянии свойств датасета на выводы - и в итоге на людей.
http://www.theatlantic.com/technology/archive/2016/04/how-big-data-harms-poor-communities/477423/
http://www.theatlantic.com/technology/archive/2016/04/how-big-data-harms-poor-communities/477423/