Сиолошная

Со стороны кожаных отбирали хороших исполнителей, которые имели высокий внутренний рейтинг платформы (и статус "MTurk Masters"). То есть они в меньшей степени кликают просто так, чтобы копеечка капала, и скорее внимательно читают задание. Все - из США.

Для ChatGPT не использовали никакой специальный промпт, поэтому потенциально результаты могут быть ещё лучше. Модели давали ту же самую инструкцию, что и людям, и добавляли "Вот твит, что я выбрал, пожалуйста укажи его класс из множества [тут список возможных ответов]".

Метрики перед вами на графике. ChatGPT тут представлена в двух видах с разными параметрами температуры при генерации (отвечает за то, насколько случайно будем выбирать слова). Слева - график сравнения доли правильных ответов, справа - согласованность разметки (как часто ответы совпадают от разных разметчиков одного и того же источника. Для ChatGPT - это два одинаковых запуска, для людей - разметка двух разных индивидов)

Ключевое:

1. На 4 задачах из 5 модель справляется сопоставимо или лучше, при этом на ТРЕХ задачах существенно превосходит людей.

2. ChatGPT очень часто согласуется с самим собой, ну это в целом и понятно - ведь нет дообучения между разными запусками, и тут просто встаёт вопрос семплинга ответа.

3. В сложных задачах, где метрики ниже (классификация на 14 классов, она априори сложнее) согласованность даже тренированных ассистентов низкая, 50%. В других задачах она на приемлемом уровне выше 75%.

4. Авторы не дают никакого объяснения тому, почему ChatGPT проигрывает по метрикам на одной задаче.

TLDR: да, в этой конкретной задаче разметки твитов модель превосходит наёмных крауд-воркеров, а главное экономит деньги - каждый запрос стоит меньше $0.003. Большое упущение, что не попробовали добавлять в промпт по 10-20 примеров, чтобы модель лучше понимала задачу (in-context learning - такое показывает прирост по метрикам обычно).

В любом случае, берём на вооружение новый промежуточный способ для сбора данных в своих задачах в будущем.