Как находить похожие слова с помощью расстояния Левенштейна?
Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна.
Компьютер — штука очень глупая. Например, человеку очевидно, что “корова” и “Корова” - это одно и то же слово и даже если сделать в слове ошибку и написать “карова”, мы все равно догадаемся, что имелось ввиду. Не таковы компьютерные программы, поменяй одну букву — машина будет уверена, что перед ней новое слово. Это здорово осложняет дело, когда приходится работать с данными, собранными на просторах Интернета.
Однако есть способ научить компьютер сравнивать слова и вычислять степень их похожести по тому, сколько нужно вставить, удалить или заменить символов, чтобы получить из одного слова другое. Способ был придуман советским математиком Владимиром Левенштейном, статья которого с момента публикации в 1965 году была процитирована более 10 тысяч раз.
https://sysblok.ru/knowhow/kak-nahodit-pohozhie-slova-s-pomoshhju-rasstojanija-levenshtejna/
Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна.
Компьютер — штука очень глупая. Например, человеку очевидно, что “корова” и “Корова” - это одно и то же слово и даже если сделать в слове ошибку и написать “карова”, мы все равно догадаемся, что имелось ввиду. Не таковы компьютерные программы, поменяй одну букву — машина будет уверена, что перед ней новое слово. Это здорово осложняет дело, когда приходится работать с данными, собранными на просторах Интернета.
Однако есть способ научить компьютер сравнивать слова и вычислять степень их похожести по тому, сколько нужно вставить, удалить или заменить символов, чтобы получить из одного слова другое. Способ был придуман советским математиком Владимиром Левенштейном, статья которого с момента публикации в 1965 году была процитирована более 10 тысяч раз.
https://sysblok.ru/knowhow/kak-nahodit-pohozhie-slova-s-pomoshhju-rasstojanija-levenshtejna/