
🤔Почему в машинном обучении используют «синтетические» данные
Некоторым алгоритмам для работы требуются структурированные данные. Например, для решения задач машинного зрения их предоставляет проект ImageNet — в его БД более 14 млн изображений, разбитых на 22 тыс. категорий. Использующие его алгоритмы ошибаются при определении объекта на фотографиях всего в 3,75% случаев. Для сравнения — у человека этот показатель превышает 5%.
Данные в подобных датасетах маркируются (или проверяются) вручную, доступ к ним может быть закрыт и данные нужно анонимизировать.
С решением этих трудностей помогают синтетические данные. Они искусственные и сгенерированы компьютером, но выглядят аналогично реальным.По оценкам Gartner, к 2022 году 40% ML-моделей будут натренированы на синтетических наборах данных.
Мнения ИТ-сообщества и экспертов индустрии о плюсах и минусах «синтетических» данных, а также кейсы собраны в статье 1cloud.ru на Habr.
👉🏻Читать https://habr.com/ru/company/1cloud/blog/493418/
Некоторым алгоритмам для работы требуются структурированные данные. Например, для решения задач машинного зрения их предоставляет проект ImageNet — в его БД более 14 млн изображений, разбитых на 22 тыс. категорий. Использующие его алгоритмы ошибаются при определении объекта на фотографиях всего в 3,75% случаев. Для сравнения — у человека этот показатель превышает 5%.
Данные в подобных датасетах маркируются (или проверяются) вручную, доступ к ним может быть закрыт и данные нужно анонимизировать.
С решением этих трудностей помогают синтетические данные. Они искусственные и сгенерированы компьютером, но выглядят аналогично реальным.По оценкам Gartner, к 2022 году 40% ML-моделей будут натренированы на синтетических наборах данных.
Мнения ИТ-сообщества и экспертов индустрии о плюсах и минусах «синтетических» данных, а также кейсы собраны в статье 1cloud.ru на Habr.
👉🏻Читать https://habr.com/ru/company/1cloud/blog/493418/