#чтивонаночь
Недавно от заказчика пришел запрос сделать классификатор текстов. При этом ни обучающих данных, ни домена, ни количества классов он предоставлять не стал.
Штош. Сделал TF-IDF + логрег, засунул в два докера — train и predict, написал как пользоваться и отдал.
Через какое-то время ко мне вернулись со словами, что балалайка не работает. Подумал. Так как это бейзлайн и хоть как-то он работать должен, то дело может быть в их разметке.
Попросил взять немного данных, дать нескольким сотрудникам на разметку и посмотреть совпадут ли они с между собой и с обучающей выборкой.
Тут заказчик сознался, что классов несколько сотен, тексты размечаются автоматически на уровне рандома и что человеки само собой тоже путаются. А на самом деле им нужно поделить на два класса спам/не спам.
Общайтесь с заказчиком и сначала делайте бейзлайн. Аминь.
Недавно от заказчика пришел запрос сделать классификатор текстов. При этом ни обучающих данных, ни домена, ни количества классов он предоставлять не стал.
Штош. Сделал TF-IDF + логрег, засунул в два докера — train и predict, написал как пользоваться и отдал.
Через какое-то время ко мне вернулись со словами, что балалайка не работает. Подумал. Так как это бейзлайн и хоть как-то он работать должен, то дело может быть в их разметке.
Попросил взять немного данных, дать нескольким сотрудникам на разметку и посмотреть совпадут ли они с между собой и с обучающей выборкой.
Тут заказчик сознался, что классов несколько сотен, тексты размечаются автоматически на уровне рандома и что человеки само собой тоже путаются. А на самом деле им нужно поделить на два класса спам/не спам.
Общайтесь с заказчиком и сначала делайте бейзлайн. Аминь.