Сделал по ПингПонгу всё, что обещал в этом посте: ссылка



На скриншоте табличка для английского.



Пост на Реддите: ссылка



Ещё посчитал корреляцию Спирмена со своими оценками на выборке в 200 диалогов, она около 0.6, что неплохо. По части выборки буду подбирать лучший промпт.



Дальше план такой:

- Переход на раздельную генерацию вопроса и оценок

- Шкала Ликерта с 5 позициями вместо 1-10

- PageRank на графе оценок

- Статья