AI Happens

вышла MidJourney v6, свежая версия субъективно лучшей text-to-image модели, хочу сравнить ее с DALL-E 3.

Midjourney vs DALL-E 3: Битва Гигантов AI??

Midjourney: Шедевр с Загадками

Midjourney, это как тот умник на вечеринке, который все знает, но объяснять не умеет. После обновления v6, картинки стали ещё круче, фотореализм и вот это все. Они реально опережают DALL-E 3 и форки из Stable Diffusion по качеству. Но есть проблема в том, как заставить эту прекрасную модель понимать себя.

Запросы в Midjourney - АД

Сформулировать запрос для Midjourney - это целое искусство. Скажешь DALL-E 3, например, "нарисуй мне человека, стоящего где-то на природе, с соотношением сторон 16:9", и он, как понимающий друг, переведет это другой модели "человек стоит на скале ar 16:9" и сделает то, что надо. А Midjourney? Тут тебе придется точно описывать каждый пиксель, иначе ничего не выйдет. Нет, серьезно, иногда кажется, что надо знать какой-то секретный язык, чтобы он тебя понял.

Почему без LLM модели внутри, Midjourney? 2023 год уже кончается!

Тут возникает вопрос: ребята, а почему бы вам не подружиться с какой-нибудь open source LLM, типа LLaMA? Это же могло бы реально упростить жизнь пользователям. Представьте, как это могло бы расширить вашу аудиторию! Но видимо, они решили, что лучше быть крутым технологическим чудом, но недоступным для обычного пользователя, чем делать что-то действительно удобное.

Вывод

В итоге, Midjourney - это как Ferrari без руля: выглядит шикарно, но попробуй управлять этим! DALL-E 3 может и не такой острый на поворотах, но зато не заставляет тебя учить новый язык для общения с ним. Иногда, кажется, что создателям Midjourney надо было немного сместить фокус с качества генерации на пользовательский опыт.

@aihappens