Обработка null-значений, синтаксических ошибок, дубликатов столбцов и строк
От незаполненных полей в датасете никуда не деться. Каждое влияет на погрешность по-своему. Существует целая область, изучающая методы работы с null-полями. Однажды на собеседовании меня просили в деталях рассказать о каждом из них.
Синтаксические ошибки возникают, когда данные в датасет добавлялись вручную, например через форму. Из-за этого можно получить ненужные уровни категорий, как «Горячий», «ГоРяЧий» и «горячий/n» и т. д.
Напоследок о дубликатах. Повторяющиеся столбцы бесполезны, а вот повторение строк искажает баланс данных в сторону одного класса.
@machinelearning_interview
От незаполненных полей в датасете никуда не деться. Каждое влияет на погрешность по-своему. Существует целая область, изучающая методы работы с null-полями. Однажды на собеседовании меня просили в деталях рассказать о каждом из них.
Синтаксические ошибки возникают, когда данные в датасет добавлялись вручную, например через форму. Из-за этого можно получить ненужные уровни категорий, как «Горячий», «ГоРяЧий» и «горячий/n» и т. д.
Напоследок о дубликатах. Повторяющиеся столбцы бесполезны, а вот повторение строк искажает баланс данных в сторону одного класса.
@machinelearning_interview