Эссе на Kaggle: competition cards и обзор NLP-соревнований

#links_with_intro #ml



“Competition Cards & Recent NLP competitions”



Внезапно тряхнули стариной и вписались c Андреем Лукьяненко (a.k.a artgor) в Kaggle. Но не затаскивать 6-ой знак после запятой, а писать эссе (гуманитарии, добро пожаловать на Кэггл! oh wait…). Название команды подходящее – 2senior2code.



Соревнование Kaggle 2023 AI report весьма необычное – написать что-то в районе 2к слов про одну из тем: Text data, Image and/or video data, Tabular and/or time series data, Kaggle Competitions, Generative AI, AI ethics, Other. Далее Peer-review, а финальное решение принимается жюри из кэгглеров, уже продемонстировавших свои хард- и софт-скилы (думаю, кэгглеры считают шутку, для них же: вот состав жюри – Bojan Tunguz, Dieter, Heads or Tails, Karnika Kapoor, Parul Pandey, Paul Mooney, Phil Culliton, Rob Mulla, Sanyam Bhutani, Will Cukierski). Был бугуртеж по поводу медалей, сначала планировали давать прям настоящие медали за эссе, но после протеста уважаемых тру мастеров отказались. Тем не менее в призах – очки в рейтинг кэггла (пофиг) и деньги (а вот тут неплохо, топ-7 командам- по $10k, щедро).



Наподобие Model cards и Data cards, я придумал Competition Cards, лаконично пересказывающие, о чем было соревнование и, главное, что сообщество вообще узнало по итогу (часто – ничего, все те же терафлопсы в обмен на 6-ой знак после запятой).



И так мы с Андреем сделали обзоры 4-х из последних NLP-cоревнований, а также в целом порассуждали, куда двигался NLP на кэггле в последние 2 года. Несколько наблюдений:



- LLM-революция по сути еще не дошла до Kaggle, вангую, уже в следующей NLP-cореве мы увидим зоопарк квантизованных ллам и альпак, втиснутых в кернелы

- Одно из соревнований (Coleridge Initiative - Show US the Data) затащили почти полностью регулярками. Вроде красиво, если б не регулярки

- Хурмомятни из трансформеров с псевдо-лейблингом и ансамблями все еще сота, в этом плане с 2019-го, когда мы победили в Google Q&A Quest Labeling, мало что поменялось (в частности, CommonLit Readability Prize – ровно то же)

- DeBERTa – выбор трансформера по умолчанию

- Какие-то минорно интересные новые идеи появляются, но задротские, интересней посмотреть, что все же будет с LLM



Ps. спасибо Владу @kaggme за фидбек по эссе (Влад как раз из тех, кто в коулридже прыгнул на 5-ое место в основном за счет регулярок)