Душа Питона

Недельный дAIджест души питона

Решила по пятницам делать небольшую подборку самых интересных (для меня) новостей. Поехали.

Text-to-video

Генерацией картинок уже никого не удивишь, поэтому сразу несколько компаний (сами знаете каких) показали достижения в новых областях. Один из алгоритмов делает короткие видео по текстовым описаниям. Пока результаты с низким разрешением, а доступ есть только у разработчиков. Но все равно кадры впечатляют.

Второй алгоритм создает 3D-модельки, метод называется DreamFusion, он использует 2D-диффузию. В качестве входных данных опять же текстовые подсказки.

BigCode

Стартап Hugging Face и ServiceNow Research запустили проект, который решает часть этических и правовых проблем при создании больших языковых моделей. Например, недавно разработчиков платного сервиса Copilot обвинили в том, что алгоритм обучался, в том числе, на материале, авторы которого не давали своего согласия.

BigCode должен выпустить большой набор данных для обучения систем генерации кода. Он понадобится для создания прототипа — модели с 15 млрд параметров (это больше чем у Codex с 12 млн, но почти в три раза меньше AlphaCode). Алгоритм будет открыт для исследователей.

Tesla AI

Так сказать, новость будущего во всех смыслах. Мероприятие Маска начнется 30 сентября в 17:00 по Тихоокеанскому времени, то есть в 3:00 субботы по Москве. Помимо долгожданного робота Оптимуса, там могут показать усовершенствованный автопилот и много другого. Если планируете на выходных тотальный «диджитал-детокс», то заходите в канал в понедельник, я расскажу с утра о главном.

Whisper

Open AI выпустила нейросеть для распознавания речи с 1,5 млрд параметров и открытым исходным кодом. Её натренировали на 680 тысячах часов аудиоданных с расшифровками на 98 языках.

С моделькой уже можно поиграться: код разработчики сразу выложили на GitHub. Из плюсов — она автоматически распознаёт несколько языков, в том числе русский.