Так как нас стало тысяча человек, давайте еще раз познакомимся. Меня зовут Татьяна Шаврина, это мой анонимный канал :)



Basically, я успела позаниматься почти всеми темами в Natural Language Processing, но больше всего занимаюсь большими корпусами, моделированием языка, бенчмарками. Я защитила PhD о бенчмарках и компьютерной лингвистике, и теперь пишу в этом канале про интересные кусочки рисерча, творчества и всего важного в мире ИИ. Здесь также бывает регулярный шитпостинг



Я также страдаю наслаждаюсь 🍸 data hoarding, поэтому этот блог начался с публичного бэкапа всех основных моделей HuggingFace.



Самые большие приключения моей жизни — это:

2022: обучили mGPT — GPT-3 на 61 языке ссылка

2021: вместе с коллегами из разных команд обучили ruDALL-E https://rudalle.ru/

2020: обучили ruGPT-3 - первую открытую GPT-3-like модель

2020: выпустили Russian SuperGLUE, бенчмарк для русскоязычных моделей https://russiansuperglue.com/

2017: Когда-то давно сделала Taiga Corpus (6 млрд слов) и корпус Omnia Russica (33+ млрд слов)

2013-2022: Люблю организовывать соревнования и, кажется, делаю это слишком давно: SpellRuEval MorphoRuEval AGRR AI Journey 2019 GramEval RuATD RUSSE Detox





Все, что мы с коллегами и соавторами делаем открытого, можно найти тут:

Мой Хабр

Github AI-Forever

Github RussianNLP



Также, если вы хотите присоединиться к команде в SberDevices, см этот пост