Недельный дAIджест души питона



Решила по пятницам делать небольшую подборку самых интересных (для меня) новостей. Поехали.



Text-to-video



Генерацией картинок уже никого не удивишь, поэтому сразу несколько компаний (сами знаете каких) показали достижения в новых областях. Один из алгоритмов делает короткие видео по текстовым описаниям. Пока результаты с низким разрешением, а доступ есть только у разработчиков. Но все равно кадры впечатляют.



Второй алгоритм создает 3D-модельки, метод называется DreamFusion, он использует 2D-диффузию. В качестве входных данных опять же текстовые подсказки.



BigCode



Стартап Hugging Face и ServiceNow Research запустили проект, который решает часть этических и правовых проблем при создании больших языковых моделей. Например, недавно разработчиков платного сервиса Copilot обвинили в том, что алгоритм обучался, в том числе, на материале, авторы которого не давали своего согласия.



BigCode должен выпустить большой набор данных для обучения систем генерации кода. Он понадобится для создания прототипа — модели с 15 млрд параметров (это больше чем у Codex с 12 млн, но почти в три раза меньше AlphaCode). Алгоритм будет открыт для исследователей.



Tesla AI



Так сказать, новость будущего во всех смыслах. Мероприятие Маска начнется 30 сентября в 17:00 по Тихоокеанскому времени, то есть в 3:00 субботы по Москве. Помимо долгожданного робота Оптимуса, там могут показать усовершенствованный автопилот и много другого. Если планируете на выходных тотальный «диджитал-детокс», то заходите в канал в понедельник, я расскажу с утра о главном.



Whisper



Open AI выпустила нейросеть для распознавания речи с 1,5 млрд параметров и открытым исходным кодом. Её натренировали на 680 тысячах часов аудиоданных с расшифровками на 98 языках.



С моделькой уже можно поиграться: код разработчики сразу выложили на GitHub. Из плюсов — она автоматически распознаёт несколько языков, в том числе русский.