Chardet



Маленькая, но невероятно полезная и простая библиотека. Позволяет определить кодировку текстового элемента.



Определяет:



- ASCII, UTF-8, UTF-16 (2 variants), UTF-32 (4 variants)

- Big5, GB2312, EUC-TW, HZ-GB-2312, ISO-2022-CN (Traditional and Simplified Chinese)

- EUC-JP, SHIFT-JIS, CP932, ISO-2022-JP (Japanese)

- EUC-KR, ISO-2022-KR, Johab (Korean)

- KOI8-R, MacCyrillic, IBM855, IBM866, ISO-8859-5, windows-1251 (Cyrillic)

- ISO-8859-5, windows-1251 (Bulgarian)

- ISO-8859-1, windows-1252 (Western European languages)

- ISO-8859-7, windows-1253 (Greek)

- ISO-8859-8, windows-1255 (Visual and Logical Hebrew)

- TIS-620 (Thai)



Установка

pip install chardet



Документация

Исходный код