Студенты средней школы помогли ИИ научиться читать старые рукописные тексты



В Италии 120 старшеклассников помогли решить многовековую проблему: как предоставить исследователям доступ к Ватиканским секретным архивам, массивную коллекцию документов, в которых подробно описываются действия Ватикана еще в восьмом веке.



На сегодняшний день с помощью оптического распознавания символов (OCR) был оцифрован только дюйм из 85-и километров Ватиканских архивов. Это связано не столько с тем, что Ватикан не хотел делиться своими секретами, сколько с тем, что их практический невозможно оцифровать из-за сложности древней рукописи.



Для решения этой проблемы команда исследователей из Архива и Университета Рома Тре использовали искусственный интеллект и немного бесплатной рабочей силы)



Первым шагом в так называемом проекте «Код системы (лат. In Codice Ratio)» было обучение с помощью студентов. Используя онлайн-платформу, построенную исследователями, студенты голосовали за то, что символы, отобранные с двух страниц Ватиканских реестров (сборник писем от Папы Римского) соответствовали вариациям символов, идентифицированными палеографами (кто-то, кто изучает старые рукописи).



Затем исследователи научили их ИИ идентифицировать рукописные символы, используя метод, который они называли «сегментирование головоломки (jigsaw segmentation)», которому скормили набор данных в 1,5 миллиона слов на латыни.



Когда исследователи протестировали свой ИИ с использованием четырех страниц Ватиканских текстов, он правильно определил 65 процентов слов. Это далеко неидеальный результат, но также и небесполезный. По мнению исследователей, эти транскрипции достаточно точны, чтобы дать палеографам «прочную основу», которая могла бы ускорить процесс транскрипции. И они уже работают над улучшением системы, что позволит упростить и ускорить изучение нераскрытых загадок истории людей.



https://futurism.com/vatican-secret-archives-ai-texts/