Гугл представил Gemini — семейство мультимодальных моделей



Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷‍♂️



Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.



P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.



Статья, блог