Мой любимый момент на Kaggle

#coolstorybob #kaggle



Kaggle - это love-hate, как контактные линзы. Не будем начинать эту тему. Но порой там случается красивое, не только +0.000005 к сомнительной по смыслу метрике за счет ансамбля с TTA-SWA, дистилляцией и post-processing.



На дворе был 2019 год, мы участвовали в NLP соревновании от Гугла «gendered pronoun resolution». Накручивали олдскульные LSTM, тогда еще без BPE/wordpiece: токенизацию в лоб подгоняли так, чтоб больше текста можно было покрыть словарем.



И вот как-то мы влачимся, делаем минорные улучшения. И тут «гусь», аспирант универа Пенсильвании Matei Ionita публикует кернел с Бертом, первый на Kaggle. Это, конечно, еще до HF, на базе tensorflow-реализации от гугла. И без файнтюна, чисто достать эмбеддинги, дообучить голову под задачу. Лидерборд был просто порван, а-ля 0.72 -> 0.5 logloss, когда до этого улучшения были уже только в 3 знаке. Бородатые мужики были удивлены.



Потом, естественно, все бросились изучать Берта, файнтюнить. Мы позвали Матея в команду и чутка не дотянули до золота. Но по соотношению полученных знаний к потраченному времени это соревнование было одной из лучших моих активностей.