#nlp #про_nlp

Итоги года в Natural Language Processing



Хочу сделать небольшой пост с самыми яркими работами этого года, изменившими ландшафт исследований.



🌸Демо: на широкую аудиторию вышли демо

DALL-E 2, MidJourney, Stable Diffusion — text-to-image еще никогда не утверждался так сильно как флагман ИИ, but here we are))

ChatGPT — генерация текста в нативном формате, offline RL + фокус на zero-shot и длинный контекст

Трансформерные архитектуры и их модификации с диффузиями стали применяться к данным разных модельностей и областей уже давно — надеюсь, в следующем году нас будут ждать рабочие общие архитектуры для многих типов сразу.





🌸Многоязычность: в практику NLP стремительно вводятся все новые и новые языки, наконец добавляя существенное разнообразие в англоцентричную картину предыдущих лет. На ACL, наконец, стартовало десятилетие языков мира.

No Language Left Behind (NLLB) — машинный перевод и новый датасет на 200+ языков мира, включая малоресурсные языки

Building Machine Translation Systems for the Next Thousand Languages — машинный перевод для 1000+ языков мира. Эта и предыдущая работы возможны, безусловно, благодаря доступу носителей на платформы, социальные сети, поисковики, где данные для этих языков наконец стали накапливаться.

XGLM, mGPT — впервые, многоязычныt декодеры , на 30+ и 60+ языков мира

Обзор Рудера — state of multilingualty



🌸Open Source догнал по масштабам проприетарные решения.

Коллаборация BigScience, объединяющая более 400 авторов со всего мира, ведет разработку открытых решений для ИИ, воспроизводя лучшие практики закрытых решений. К моделям прилагаются открытые очищенные датасеты!

BLOOM — мультиязычная языковая модель, 176 млрд параметров

BigCode — мультиязычная модель, обученная на языках программирования, из последних — SantaCoder

Библиотека Petals (про нее напишу отдельно!) — распределенное обучение нейронок torrent-like



Модели от больших компаний, выпущенные в открытый доступ:

YaLM — русская языковая модель на 100 млрд параметров

GALACTICA — языковая модель на 120 млрд параметров, обученная на корпусе научных статей paperswithcode

NLLB — машинный перевод на 200+ языков, модель на 3.3 млрд параметров, есть дистиллированные версии

Stable Diffusion — text-to-image и все остальное на английском



🌸Ограничения: пока качество растет, накал конкуренции не спадает: вводятся новые лицензии,

— ограничивающие использование моделей

— формально не открытые, но сохраняющие открытость чекпоинтов

— защищающие разработчиков, а не пользователей.

Responsible AI License — BLOOM, Stable Diffufion, BigCode вышли под OpenRAIL-M, есть и другие модификации лицензии для датасетов и кода.



Ваши ожидания от 2023?