🔺 Новости недели #ml_news



🔸 LLaMA. Meta почти выложила в открытый доступ сильные мультиязычные (20 языков) претрейны от 7B до 65B параметров. 13B бьет приснопамятную GPT-3 (175B) на большинстве тестов. Обучали на открытых корпусах, показывая, что и на них можно достичь SOTA. Есть нюанс, — получить чекпоинт можно по запросу, а лицензия — noncommercial.

🔸 OpenAI написали заметку про наступление эпохи AGI (сильного искусственного интеллекта) "Planning for AGI and beyond" и о своей миссии в этом (три принципа в короткой и долгой перспективе).

🔸 Toolformer. Вновь работа от Meta, теперь развиваем идею повышения эффективности языковых моделей внешними инструментами. Если по какому-то API доступен калькулятор или качественный машинный перевод, то предсказываем что и когда в него нужно передать. Результат встраиваем в генерацию. Хороший обзор от Гриши Сапунова.

🔸 FlexGen. Еще один фреймворк от сообщества для запуска больших моделей на одной видеокарте (показывают пример с OPT-175B). Работает за счет сжатия весов и offloading'а, наподобие HF Accelerate и DeepSpeed Zero, но, говорят, быстрее на порядок, так как ориентирован на высокую производительность.

🔸 Умелец добавил редактор поз в Automatic1111. Кто не знает, — это инструмент для удобного использования Stable Diffusion моделей через web UI. Очень удобно, если есть своя карта. Можно подкладывать разные специализированные чекпоинты от сообщества и использовать плагины.

🔸 Вернулся из отпуска, будем с вами продолжать чинить добро и причинять радость.