Как перебор победил метод наименьших квадратов
Контент про мои фейлы стал лидером в опросе. Вспомнил одну давнюю и поучительную историю, делюсь.
На старте моей карьеры в больших компаниях я работал в компании ABBYY. Моя коллега занималась распознаванием определенных удостоверений, имеющих свой формат в разных регионах. Удостоверения могли быть отсканированы в разных масштабах и качестве, поэтому чтобы понять, какой шаблон подходит, скан растягивали на нужное число процентов, сопоставив края удостоверения с шаблоном, и перебирали шаблоны всех регионов «в лоб». После выбора шаблона делалось распознавание.
Юный и бодрый я на это посмотрел и подумал: «Да это ж какое-то топорное решение! Я же знаю ML, в университетах учился. Надо сначала сделать классификатор сканов по регионам (на мешке визуальных слов, если кому-то это о чем-то говорит в конце 2023), т.к. у каждого региона есть своя уникальная картинка на удостоверении, затем подобрать правильное преобразование картинки, дающее совпадение ключевых точек. Обычная задача с системой уравнений, решаемой методом наименьших квадратов».
Ну что же, реализовал я такое решение, полный гордости за свои познания в анализе изображений.
В итоге оказалось, что мой «умный» метод решал задачу сильно медленнее, чем «грубый» перебор шаблонов всех регионов.
Мораль: не задирайте нос раньше времени и не относитесь к машинному обучению с какой-то уж совсем наивной фанатичностью.
#факап
Контент про мои фейлы стал лидером в опросе. Вспомнил одну давнюю и поучительную историю, делюсь.
На старте моей карьеры в больших компаниях я работал в компании ABBYY. Моя коллега занималась распознаванием определенных удостоверений, имеющих свой формат в разных регионах. Удостоверения могли быть отсканированы в разных масштабах и качестве, поэтому чтобы понять, какой шаблон подходит, скан растягивали на нужное число процентов, сопоставив края удостоверения с шаблоном, и перебирали шаблоны всех регионов «в лоб». После выбора шаблона делалось распознавание.
Юный и бодрый я на это посмотрел и подумал: «Да это ж какое-то топорное решение! Я же знаю ML, в университетах учился. Надо сначала сделать классификатор сканов по регионам (на мешке визуальных слов, если кому-то это о чем-то говорит в конце 2023), т.к. у каждого региона есть своя уникальная картинка на удостоверении, затем подобрать правильное преобразование картинки, дающее совпадение ключевых точек. Обычная задача с системой уравнений, решаемой методом наименьших квадратов».
Ну что же, реализовал я такое решение, полный гордости за свои познания в анализе изображений.
В итоге оказалось, что мой «умный» метод решал задачу сильно медленнее, чем «грубый» перебор шаблонов всех регионов.
Мораль: не задирайте нос раньше времени и не относитесь к машинному обучению с какой-то уж совсем наивной фанатичностью.
#факап