Только вчера я писал о том, что жду, когда GPT сможет полноценно создавать и редактировать картинки по описанию, а не как это делается сейчас, ведь текущие диффузионные модели плохо понимают сложные описания картинок.

И да, в последнее время появляются более продвинутые модели с архитектурой diffusion transformer, например, Stable Diffusion 3 или Flux, но трансформерная часть у них совсем небольшая по сравнению с той же GPT-4o, да и полноценно редактировать картинки они пока не умеют.



И тут xAI выпускают авторегрессионную модель, как я и ждал. Она даже может немного генерировать текст на русском, хотя на английском гораздо лучше, но в целом по качеству ей все еще далеко до того, что показывали OpenAI. А функция редактирования как обычно будет позже 🤬