Ответ на прошлый квиз уже по традиции не так прост, как кажется.



👴🏻 Те, кто помнят, что Фишер это кто-то очень древний и стоящий у истоков статистики, сразу выбрали Ирисы Фишера. И действительно, этот датасет был использован Фишером уже в 1936 году, чтобы показать, что можно построить линейный классификатор как честное формальное математическое решение оптимизационной задачи. Т.е. рассчитать коэффициенты в формуле так, чтобы ошибка на датасете была минимальной. Именно с линейного дискриминанта Фишера я бы вел отсчет истории машинного обучения, пусть тогда это так и не называлось.



🚢 Но есть в этом квизе место и для «горя от ума». Многие помнят, что Титаник затонул в начале 20 века, а точнее в 1912 году, что действительно раньше работ Фишера. И тут начинаются риторические вопросы: что считать датой появления датасета? Ведь фактически, когда Титаник утонул, все данные уже появились.



🤔 Если считать так, то самые старые датасеты, конечно, будут не про Титаник и Ирисы, а про какое-нибудь реликтовое излучение в космосе, так что на мой взгляд правильно считать датой появления датасета первое применение этого датасета для какого-то анализа или построения модели. Также логично вести речь про конкретный набор данных, а не про все аналогичные датасеты, т.е. изначально сформированный на бумаге список пассажиров + список погибших (тоже на бумаге) датасетом Titanic не считаем.



🤓 Окей, тогда идем в Гугл и выясняем год первого упоминания о датасете Titanic. Находим ссылку на статью 1995 года. Датасет мог использоваться раньше, но вряд ли настолько, чтобы появиться раньше ирисов Фишера



Итог: все же ирисы Фишера как датасет появились раньше (из всех перечисленных вариантов).