ForkLog AI

⚠️ Исследователи Массачусетского технологического института обнаружили, что десять популярных наборов данных с открытым исходным кодом содержат грубые ошибки.

По их оценкам, самый высокий процент неточностей находится в сборнике рисунков от руки QuickDraw компании Google — 10,12% от общего числа ярлыков, а в наборе для тестирования алгоритмов компьютерного зрения ImageNet — 5,8%.

🖼 Исследователи также рассказали, какие именно ошибки допускают разметчики данных. Например, на фотографиях гриб может быть подписан как ложка, лягушка — кошкой, а высокая нота Арианы Гранде в аудиофайле отмечена как свист.

Ученые добавили, что такие оплошности в тестовых датасетах влияют на качество работы алгоритмов машинного обучения. Они призвали разработчиков ИИ тщательнее соблюдать «гигиену» при работе с данными, создавая свои модели.

#MIT #исследование