Так как нас стало тысяча человек, давайте еще раз познакомимся. Меня зовут Татьяна Шаврина, это мой анонимный канал :)
Basically, я успела позаниматься почти всеми темами в Natural Language Processing, но больше всего занимаюсь большими корпусами, моделированием языка, бенчмарками. Я защитила PhD о бенчмарках и компьютерной лингвистике, и теперь пишу в этом канале про интересные кусочки рисерча, творчества и всего важного в мире ИИ.Здесь также бывает регулярный шитпостинг
Я такжестрадаю наслаждаюсь 🍸 data hoarding, поэтому этот блог начался с публичного бэкапа всех основных моделей HuggingFace.
Самые большие приключения моей жизни — это:
2022: обучили mGPT — GPT-3 на 61 языке ссылка
2021: вместе с коллегами из разных команд обучили ruDALL-E https://rudalle.ru/
2020: обучили ruGPT-3 - первую открытую GPT-3-like модель
2020: выпустили Russian SuperGLUE, бенчмарк для русскоязычных моделей https://russiansuperglue.com/
2017: Когда-то давно сделала Taiga Corpus (6 млрд слов) и корпус Omnia Russica (33+ млрд слов)
2013-2022: Люблю организовывать соревнования и, кажется, делаю это слишком давно: SpellRuEval MorphoRuEval AGRR AI Journey 2019 GramEval RuATD RUSSE Detox
Все, что мы с коллегами и соавторами делаем открытого, можно найти тут:
Мой Хабр
Github AI-Forever
Github RussianNLP
Также, если вы хотите присоединиться к команде в SberDevices, см этот пост
Basically, я успела позаниматься почти всеми темами в Natural Language Processing, но больше всего занимаюсь большими корпусами, моделированием языка, бенчмарками. Я защитила PhD о бенчмарках и компьютерной лингвистике, и теперь пишу в этом канале про интересные кусочки рисерча, творчества и всего важного в мире ИИ.
Я также
Самые большие приключения моей жизни — это:
2022: обучили mGPT — GPT-3 на 61 языке ссылка
2021: вместе с коллегами из разных команд обучили ruDALL-E https://rudalle.ru/
2020: обучили ruGPT-3 - первую открытую GPT-3-like модель
2020: выпустили Russian SuperGLUE, бенчмарк для русскоязычных моделей https://russiansuperglue.com/
2017: Когда-то давно сделала Taiga Corpus (6 млрд слов) и корпус Omnia Russica (33+ млрд слов)
2013-2022: Люблю организовывать соревнования и, кажется, делаю это слишком давно: SpellRuEval MorphoRuEval AGRR AI Journey 2019 GramEval RuATD RUSSE Detox
Все, что мы с коллегами и соавторами делаем открытого, можно найти тут:
Мой Хабр
Github AI-Forever
Github RussianNLP
Также, если вы хотите присоединиться к команде в SberDevices, см этот пост