Mashkka про Data Science

💭Заповедь 3 начинающего DS

💡Читайте логи

Не надо бояться страшных логов ошибок. Часто в них содержится та самая информация, которая поможет понять, что не так в коде.

Единого "правила чтения" логов нет, у каждого здесь свой "авторский" подход. Я обычно вначале смотрю, на какой строчке все сломалось, а потом прокручиваю в самый конец - в последней строчке как правило содержится ключевая информация, что не так. Если этого оказалось недостаточно, то начинаю читать логи снизу вверх, постепенно раскручивая ошибку из недр Python вверх как спираль. А еще чаще гуглю (в Google! по правилу 1) самую последнюю строчку ошибки и в большинстве случаев на Stack Overflow нахожу ответ.

Кстати, у sklearn очень хорошие подсказки в логах, которые зачастую напрямую говорят, что не так и как это исправить.

Например:

При попытке зафитить GridSearch на ирисах Фишера (задача классификации на 3 класса), оценивая качество с помощью F1:

clf = GridSearchCV(svc, parameters, scoring = 'f1')

clf.fit(iris.data, iris.target)

sklearn подскажет нам, что необходимо указать тип агрегации, среди прочего выдав в логах вот такую подсказку:

ValueError: Target is multiclass but average='binary'. Please choose another average setting, one of [None, 'micro', 'macro', 'weighted'].

нам остается просто последовать его совету и поменять scoring = 'f1' на scoring = 'f1_micro':

clf = GridSearchCV(svc, parameters, scoring = 'f1_micro')

clf.fit(iris.data, iris.target)

#заповеди_ds #ds #советы #ml_на_пальцах