Towards a Human-like Open-Domain Chatbot

https://arxiv.org/pdf/2001.09977.pdf

🕛Когда - 27 января 2020

💜В чем понт

Авторы из Deepmind разработали самую тяжелую по количеству параметров и самую лучшую по оценке людей диалоговую систему Meena. Кроме того, придумали новую метрику SSA, основанную на оценке людей, которая коррелирует с алгоритмической метрикой перплексией, а также очень детально проанализировали диалоговые SOTA и показали, что Meena превосходит ближайшего конкурента на 23% SSA, отставая от человека на 7% SSA.



🍬Про новый чат бот

Чат бот построен на основе Evolved Transformers — архитектуры, полученной из стандартного трансфомера с помощью автоматического оптимизатора архитектуры нейронных сетей — NAS (neural architecture search). В боте 2.6 биллион параметров, что в 1.7 раз больше, чем в самом очень тяжелом энкодере GPT-2. Бот обучался 30 дней на TPU-v3 core на 341Гб текстов из социальных сетей, что в 8 раз больше объема данных, который использовался для обучения GPT-2.



🖋 Немного теории про метрики

Метрики диалоговых систем делятся на две категории. Есть метрики оценки людей, например метрика из теста Тьюринга, когда асессору дают вопрос и два ответа, чтобы тот определил, где человек, а где алгоритм. Вторая категория метрик — алгоритмические метрики, которые можно численно посчитать по выходам алгоритма, например BLEU.

Одна из главных проблем области — метрики оценки людей не коррелируют с алгоритмическими метриками, поэтому до того, как сажать людей размечать данные трудно понять, что люди адекватно воспримут хороший по методикам ML алгоритм.



🥑 Про авторские метрики

Авторы придумали метрику SSA - Sensible Specific Average, среднее между Sensible - оценкой ассесоров, осмысленно предложение или нет, и Specifity - насколько предложение специфично в контексте. Эта метрика хорошо коррелирует с алгоритмической метрикой перплексией - насколько предсказанные вероятности на тесте предсказывают таргет. Авторы показали, что кореляция SSA с перплексией - 94%, а корреляция SSA с субьективной оценкой людей того, насколько им нравится ответ на вопрос - 96%. Также сравнили между собой SOTA диалоговые системы в статичном случае, когда предложения, на которые нужно дать ответ сэмплированы из готовой выборки, и динамическом случае - когда люди могут переписываться с ботом. Лучшее качество 79% SSA среди алгоритмов у Meena, фреймворка авторов, что на 23% выше, чем у ближайшего конкурента, и на 7% ниже, чем у человека. Более подробный результат сравнения на статическом случае в картинке под постом.



🍽Что в итоге

Масштабное исследование диалоговых систем, новые скорелированные метрики для оценки алгоритмов и SOTA диалоговая система.



🧚‍♀️Субъективное мнение

Статьи по ML становятся похожи на биологические — есть сложная система с неинтерпретируемым механизмом работы, нужно оценить свойства и сравнить с другими системами. В статье посчитаны статзначимости, что нехарактерно и круто :)