🗃 Исследователи Массачусетского технологического института создали систему PClean, которая автоматически очищает «грязные» данные в таблицах: опечатки, дубликаты, пропущенные значения, орфографические ошибки и несоответствия.



Алгоритм использует подход, основанный на знаниях. Пользователь предоставляет ему информацию о базе данных и указывает основные проблемы, которые могут возникнуть в процессе очистки. Затем программа объединяет эти знания с помощью вероятностных рассуждений дает ответ.



🤝 Один из авторов проекта сказал, что PClean дает возможность заручиться поддержкой компьютеров так же, как люди обращаются за помощью друг к другу.



По словам исследователей, алгоритм упрощает и удешевляет очистку баз данных без огромных инвестиций в человеческие и программные системы.



🌐 PClean доступен всем желающим. Исходный код системы разработчики опубликовали на GitHub.



https://forklog.com/?p=134915



#MIT #исследование