Text-to-image сети не понимают что такое отношение между объектами.



Ученые из Гарварда выяснили что Text-to-image сети, например DALL-E 2, не понимает концепцию отношений. Только около 22% сгенерированных подобными моделями изображений отражают простые отношения между объектами.



Говорит о понимание сложных отношений вообще не приходится.



Для всех желающих предлагаю проверить ученых из Гарварда. Кидайте в комментарии работы MidJourney, где в запросах использовались отношения между объектами и посмотрим реально ли все так плохо.



Статья.