Эссе на Kaggle: competition cards и обзор NLP-соревнований
#links_with_intro #ml
“Competition Cards & Recent NLP competitions”
Внезапно тряхнули стариной и вписались c Андреем Лукьяненко (a.k.a artgor) в Kaggle. Но не затаскивать 6-ой знак после запятой, а писать эссе (гуманитарии, добро пожаловать на Кэггл! oh wait…). Название команды подходящее – 2senior2code.
Соревнование Kaggle 2023 AI report весьма необычное – написать что-то в районе 2к слов про одну из тем: Text data, Image and/or video data, Tabular and/or time series data, Kaggle Competitions, Generative AI, AI ethics, Other. Далее Peer-review, а финальное решение принимается жюри из кэгглеров, уже продемонстировавших свои хард- и софт-скилы(думаю, кэгглеры считают шутку, для них же: вот состав жюри – Bojan Tunguz, Dieter, Heads or Tails, Karnika Kapoor, Parul Pandey, Paul Mooney, Phil Culliton, Rob Mulla, Sanyam Bhutani, Will Cukierski) . Был бугуртеж по поводу медалей, сначала планировали давать прям настоящие медали за эссе, но после протеста уважаемых тру мастеров отказались. Тем не менее в призах – очки в рейтинг кэггла (пофиг) и деньги (а вот тут неплохо, топ-7 командам- по $10k, щедро).
Наподобие Model cards и Data cards, я придумал Competition Cards, лаконично пересказывающие, о чем было соревнование и, главное, что сообщество вообще узнало по итогу (часто – ничего, все те же терафлопсы в обмен на 6-ой знак после запятой).
И так мы с Андреем сделали обзоры 4-х из последних NLP-cоревнований, а также в целом порассуждали, куда двигался NLP на кэггле в последние 2 года. Несколько наблюдений:
- LLM-революция по сути еще не дошла до Kaggle, вангую, уже в следующей NLP-cореве мы увидим зоопарк квантизованных ллам и альпак, втиснутых в кернелы
- Одно из соревнований (Coleridge Initiative - Show US the Data) затащили почти полностью регулярками. Вроде красиво, если б не регулярки
- Хурмомятни из трансформеров с псевдо-лейблингом и ансамблями все еще сота, в этом плане с 2019-го, когда мы победили в Google Q&A Quest Labeling, мало что поменялось (в частности, CommonLit Readability Prize – ровно то же)
- DeBERTa – выбор трансформера по умолчанию
- Какие-то минорно интересные новые идеи появляются, но задротские, интересней посмотреть, что все же будет с LLM
Ps. спасибо Владу @kaggme за фидбек по эссе (Влад как раз из тех, кто в коулридже прыгнул на 5-ое место в основном за счет регулярок)
#links_with_intro #ml
“Competition Cards & Recent NLP competitions”
Внезапно тряхнули стариной и вписались c Андреем Лукьяненко (a.k.a artgor) в Kaggle. Но не затаскивать 6-ой знак после запятой, а писать эссе (гуманитарии, добро пожаловать на Кэггл! oh wait…). Название команды подходящее – 2senior2code.
Соревнование Kaggle 2023 AI report весьма необычное – написать что-то в районе 2к слов про одну из тем: Text data, Image and/or video data, Tabular and/or time series data, Kaggle Competitions, Generative AI, AI ethics, Other. Далее Peer-review, а финальное решение принимается жюри из кэгглеров, уже продемонстировавших свои хард- и софт-скилы
Наподобие Model cards и Data cards, я придумал Competition Cards, лаконично пересказывающие, о чем было соревнование и, главное, что сообщество вообще узнало по итогу (часто – ничего, все те же терафлопсы в обмен на 6-ой знак после запятой).
И так мы с Андреем сделали обзоры 4-х из последних NLP-cоревнований, а также в целом порассуждали, куда двигался NLP на кэггле в последние 2 года. Несколько наблюдений:
- LLM-революция по сути еще не дошла до Kaggle, вангую, уже в следующей NLP-cореве мы увидим зоопарк квантизованных ллам и альпак, втиснутых в кернелы
- Одно из соревнований (Coleridge Initiative - Show US the Data) затащили почти полностью регулярками. Вроде красиво, если б не регулярки
- Хурмомятни из трансформеров с псевдо-лейблингом и ансамблями все еще сота, в этом плане с 2019-го, когда мы победили в Google Q&A Quest Labeling, мало что поменялось (в частности, CommonLit Readability Prize – ровно то же)
- DeBERTa – выбор трансформера по умолчанию
- Какие-то минорно интересные новые идеи появляются, но задротские, интересней посмотреть, что все же будет с LLM
Ps. спасибо Владу @kaggme за фидбек по эссе (Влад как раз из тех, кто в коулридже прыгнул на 5-ое место в основном за счет регулярок)