ИИ научили предсказывать будущее. Правда точность прогнозов всё ещё хуже «мудрости толпы»



В открытый доступ выложен датасет Autocast. С его помощью можно обучить языковые модели прогнозировать события из области политики, экономики, науки и технологий.



🏛 В работе над Autocast участвовала команда учёных из Оксфорда, Беркли и Массачусетского технологического института. Они использовали архивы Metaculus, Good Judgment Open и CSET Foretell. Всё это общественные краудсорсинговые проекты, чьи участники состязаются в предсказаниях будущих событий, зарабатывая рейтинговые очки.



Итогом стал массив из 6707 комплексных единиц, каждая из которых содержит:



1️⃣ вопрос (например, запустит ли Северная Корея баллистическую ракету с дальностью поражения 10 тыс. км?);



2️⃣ временной промежуток от момента задания вопроса до даты предсказанного события (скажем, с 01.01.2021 до 01.01.2022);



3️⃣ ответ на вопрос (утверждение «правда» или «ложь», либо один из пунктов в ответе с множественным выбором, а также иногда точная дата события или количество);



4️⃣ «мудрость толпы» в виде процента предсказывающих данное событие пользователей платформ в те или иные моменты времени, а также в зависимости от текущих новостей.



📈 Полученный датасет применили для обучения широкого спектра моделей, как способных к информационному поиску (Fusion-in-Decoder), так и без него (UnifiedQA-v2 и T5).



🔜 Наиболее сложный вариант — FID Temporal — сочетал Fusion-in-Decoder с языковой моделью-трансформером GPT-2, которая получала на вход эмбеддинги — машиночитаемые векторные представления главных новостных сюжетов за соответствующие даты. Это позволяло ей точно так же делать прогнозы и уточнять их на протяжении длительного отрезка «симулированного времени», как и в прошлом людям.



Данная система продемонстрировала и наибольшую эффективность среди всех моделей с точностью предсказаний в 37,8%, что более чем вдвое превосходит случайное угадывание — 18,8%. Однако сильно уступает «мудрости толпы». Совокупный прогноз на основе оценок множества людей точен в 82,5% случаев.



Тем не менее эксперименты показали, что с увеличением числа расчётных параметров точность машинных предсказаний растёт. А значит при увеличении размеров датасетов и самих языковых моделей, сложных архитектурах и тонкой настройки (файнтьюнов) — можно добиться существенного прогресса в предсказаниях будущих событий.



Главное, чтобы прогнозы ИИ люди не стали считать истиной в последней инстанции!



Почитать подробнее: препринт на Arxiv



#Прогнозные_системы, #Обработка_естественного_языка