Kantor.AI

О других этапах отбора. Тест по программированию был контестом из четырех задачек, из которых первая проверяла способность написать хоть какую-то простую программу, вторая не предполагала знание алгоритмов, а третья и четвертая подразумевали знание совсем азов вроде обходов графов.

Отдельной головной болью стал вопрос, включать или нет алгоритмы в письменный экзамен (для очников). Было принято решение, что никто не пишет в продакшн на бумажке, так что можно обойтись без этого. Да и все равно программирование на бумаге ненавидят все, включая проверяющих.

Письменный экзамен был из менее "шаблонной" математики, чем онлайн-тест. Но такой, чтобы в 2-3 задачах решение было изящным и лежало на поверхности. Например: чтобы выяснить, существуют ли матрицы A и B такие, что AB - BA = E, достаточно было догадаться вспомнить свойства следа матрицы.

Изначально у меня были большие сомнения в том, что письменный экзамен с олимпиадными задачками по математике нужен. Не буду лукавить: однажды я провалил один такой очень важный для меня вступительный экзамен, отсюда и мой настрой. Но во-первых в задании Академии хватало понятных и доступных задач, а во-вторых мы постарались сделать отбор таким, чтобы было реально компенсировать неудачу на письменном успехами на других этапах.

Была и еще одна важная причина, по которой письменный экзамен по математике нужно было оставить. Я постарался изучить мнение разных экспертов с незыблемой репутацией в Data Science, и в личной беседе встретил как резко негативные отзывы о таких процедурах отбора, так и отзыв "если бы там не было этих задач, то я бы никогда туда не поступил". Если уж кому-то из звезд DS олимпиадные задачки по математике на вступительных помогли, значит нужно оставить их как шанс для других таких же людей.

Также эксперты подсказали добавить соревнование по анализу данных, как часть отбора, более релевантную data science, чем задачки по линалу и матану. Участие в соревновании в случае успеха добавляло дополнительные баллы, позволяя, например, хуже решить задачки на письменном.

Соревнование было таким, чтобы лучший результат давали не знания ML (ему мы еще будем учить), а работа с данными и внимательное их изучение. Ради этого мы подготовили данные, в которых была "утечка" (leak) правильных ответов в признаки объектов. Соревнование на этих данных уже тестировалось на группе из 40 человек, и из них только один человек нашел утечку. В нашем случае ей смогли воспользоваться примерно 5% участников. Может показаться, что утечки нужно искать только в соревнованиях на kaggle. Но в индустрии, пропустив утечку в данных, можно запросто получать завышенные оценки качества модели и не долго не замечать подвох.

Итоговый балл для очной формы обучения учитывал письменную математику, программирование (за вычетом первой задачи) и соревнование по анализу данных. У заочников же вместо письменной математики использовался результат онлайн-тура.

Предмет моей особой гордости — то, что в MADE этапы отбора оценивали людей с разных сторон, и ошибка только на каком-то одном из этапов не лишала возможности поступить в Академию. Главное было хорошо показать себя в других испытаниях. Я нахожу это очень человечной и внимательной к разным талантам людей системой отбора, и ровно этого и хотелось в итоге добиться.