Студенты средней школы помогли ИИ научиться читать старые рукописные тексты
В Италии 120 старшеклассников помогли решить многовековую проблему: как предоставить исследователям доступ к Ватиканским секретным архивам, массивную коллекцию документов, в которых подробно описываются действия Ватикана еще в восьмом веке.
На сегодняшний день с помощью оптического распознавания символов (OCR) был оцифрован только дюйм из 85-и километров Ватиканских архивов. Это связано не столько с тем, что Ватикан не хотел делиться своими секретами, сколько с тем, что их практический невозможно оцифровать из-за сложности древней рукописи.
Для решения этой проблемы команда исследователей из Архива и Университета Рома Тре использовали искусственный интеллект и немного бесплатной рабочей силы)
Первым шагом в так называемом проекте «Код системы (лат. In Codice Ratio)» было обучение с помощью студентов. Используя онлайн-платформу, построенную исследователями, студенты голосовали за то, что символы, отобранные с двух страниц Ватиканских реестров (сборник писем от Папы Римского) соответствовали вариациям символов, идентифицированными палеографами (кто-то, кто изучает старые рукописи).
Затем исследователи научили их ИИ идентифицировать рукописные символы, используя метод, который они называли «сегментирование головоломки (jigsaw segmentation)», которому скормили набор данных в 1,5 миллиона слов на латыни.
Когда исследователи протестировали свой ИИ с использованием четырех страниц Ватиканских текстов, он правильно определил 65 процентов слов. Это далеко неидеальный результат, но также и небесполезный. По мнению исследователей, эти транскрипции достаточно точны, чтобы дать палеографам «прочную основу», которая могла бы ускорить процесс транскрипции. И они уже работают над улучшением системы, что позволит упростить и ускорить изучение нераскрытых загадок истории людей.
https://futurism.com/vatican-secret-archives-ai-texts/
В Италии 120 старшеклассников помогли решить многовековую проблему: как предоставить исследователям доступ к Ватиканским секретным архивам, массивную коллекцию документов, в которых подробно описываются действия Ватикана еще в восьмом веке.
На сегодняшний день с помощью оптического распознавания символов (OCR) был оцифрован только дюйм из 85-и километров Ватиканских архивов. Это связано не столько с тем, что Ватикан не хотел делиться своими секретами, сколько с тем, что их практический невозможно оцифровать из-за сложности древней рукописи.
Для решения этой проблемы команда исследователей из Архива и Университета Рома Тре использовали искусственный интеллект и немного бесплатной рабочей силы)
Первым шагом в так называемом проекте «Код системы (лат. In Codice Ratio)» было обучение с помощью студентов. Используя онлайн-платформу, построенную исследователями, студенты голосовали за то, что символы, отобранные с двух страниц Ватиканских реестров (сборник писем от Папы Римского) соответствовали вариациям символов, идентифицированными палеографами (кто-то, кто изучает старые рукописи).
Затем исследователи научили их ИИ идентифицировать рукописные символы, используя метод, который они называли «сегментирование головоломки (jigsaw segmentation)», которому скормили набор данных в 1,5 миллиона слов на латыни.
Когда исследователи протестировали свой ИИ с использованием четырех страниц Ватиканских текстов, он правильно определил 65 процентов слов. Это далеко неидеальный результат, но также и небесполезный. По мнению исследователей, эти транскрипции достаточно точны, чтобы дать палеографам «прочную основу», которая могла бы ускорить процесс транскрипции. И они уже работают над улучшением системы, что позволит упростить и ускорить изучение нераскрытых загадок истории людей.
https://futurism.com/vatican-secret-archives-ai-texts/