ИИ научился копировать почерк



Инструменты ИИ уже позволяют создавать точные копии голосов и пугающе реалистичные видео-дипфейки. Теперь алгоритмы добрались и до рукописного текста. Ученые из Университета искусственного интеллекта имени Мохаммеда бен Заида в Абу-Даби (MBZUAI) разработали технологию, которая может имитировать почерк человека. Для обучения нейросети достаточно всего нескольких абзацев.



Впервые команда поделилась результатами исследования по теме в 2021 году. В презентации тогда отметили, что раньше для имитации использовали генеративно-состязательную сеть (GAN). Почерк, созданный с помощью GAN, отражает общий стиль писателя — например, наклон или ширину штрихов в буквах. Но таким способом трудно воссоздать лигатуры — связки между символами.  



Так что вместо GAN исследователи решили применить Vision Transformers. Этот тип нейросетей обычно используют для решения задач в области компьютерного зрения. Идея в том, что трансформер-модели способны обрабатывать так называемые дальние зависимости (на больших расстояниях между элементами последовательности). Они распознают, как физически удаленные друг от друга части изображения связаны между собой.



В ходе нового исследования ученые сравнили свой подход к созданию рукописного текста HWT (от Handwriting Transformers) с двумя другими ИИ-технологиями GANwriting и Davis et al. Все модели должны были повторить почерк шести авторов.



Выяснилось, что у GANwriting есть ограничение на длину слов, которые она может копировать. Плюс, она не совсем понимает контекст (модель сгенерировала слово precise вместо precisely). А Davis et al смогла повторить общий стиль писателей, но не справилась с деталями. Результаты HWT были ближе всего к оригиналу.



Исследователи показали текст, сгенерированный тремя моделями, 100 людям и спросили, какой они предпочитают. Участники исследования выбрали результаты HWT в 81% случаев. В других тестах люди вообще не смогли отличить имитированный почерк от реального.



Команда MBZUAI уже получила патент на систему ИИ от Бюро патентов и торговых марок США. Исследователи еще не выпустили готовый продукт, но планируют применить свои разработки в течение нескольких месяцев и сейчас ищут коммерческих партнеров.



Модель потенциально может быть интересна в абсолютно разных сферах, от расшифровки почерка врачей до создания персонализированной рекламы. А еще  автоматическая генерация рукописного текста будет полезна для людей с ограниченными возможностями или травмами. Технологию также можно использовать для улучшения других ИИ-моделей.



При этом очевидно, что модель открывает новые возможности для мошенничества и подделки документов. Так что придется разрабатывать новые инструменты для борьбы с фродом.



В любом случае, впереди у исследователей еще много работы. Модель-трансформер может обучаться и писать на английском и, с переменным успехом, на французском языках. Но, по словам команды, они все еще пытаются справиться с арабским. В этом языке связки между буквами слишком сложные.