AbstractDL

🔥GPT-4 вышла! И она мультимодальная!

Модель принимает на вход картинки и текст, причём визуальную информацию энкодят как-то очень хитро, ведь GPT-4 понимает даже мелкий pdf шрифт (см картинку).

К сожалению, в статье только общие слова и результаты тестов (на целых 98 страниц), но нет никаких технических деталей — даже количество параметров не дают. Прямо говорят, что не хотят, чтобы кто-то воспроизвёл и выпустил это на волю (safety implications).

Блог, статья, трансляция