#на_пальцах
Почему генератор картинок на основе StableDiffusion не может предсказывать будущее Вселенной.
https://youtube.com/shorts/-WFQVKdIfqM?feature=share
В этом (и других подобных) видео все преподносится так словно бы генеративная нейросеть на основе stable diffusion способна как человек, сесть и задуматься над глубокими научными и философскими вопросами, в данном случае, о том, каково прошлое и будущее Вселенной и Человечества, и составить свое мнение на этот счёт.😂
Естественно, в реальности обучение (и сама архитектура) нейросети подобного типа устроены так, что таких способностей она приобрести никак не может. Её просто учат "смотреть" на картинки из интернета и "списывать, но не точь-в-точь". Другими словами, нейросеть учат генерировать картинки, более-менее похожие на то, что было в обучающей выборке, но в то же время добавлять в них и элемент случайности, делая их достаточно разнообразными, чтобы кожаные не скучали. А параллельно с картинкой ей показывают еще и подпись, в результате чего она выучивает, какое есть соответствие между картинками и словами. Если правильно настроить этот процесс, нейросеть в дальнейшем успешно генерирует картинки по заданному тексту, в том числе и делая комбинации, которых не было в обучающей выборке (Конечно, я опускаю тут все детали касательно того, как именно она эта делает - например, что генерация происходит в несколько этапов, обучение может быть устроено несколько сложнее и т.д., потому что думаю, что это не релевантно текущему посту).
По итогу, то, как такая нейросеть "видит мир" очень сильно отличается от того, как видит его человек. Например, она не понимает, что фотографии, которые ей показывают, являются изображениями трехмерных объектов; ее представления о пространстве вообще очень ограничены. Так, по умолчанию она имеет большие сложности с тем, чтобы понимать, что такое повороты картинки, что такое пространственные отношения типа "на", "под" и т.п. Все эти сложности вызваны не только ограничениями архитектуры, но и тем, что она воспринимает изображение как плоский набор пикселей и ничего больше, ведь у нее нет опыта прямого взаимодействия с реальным миром как у нас. Есть, конечно, много работ где модели по разному пытаются научить преодолеть эти сложности, но это не те модели, которые генерируют картинки для подобных видео.
Конечно, нейросеть молодец что при всех своих ограничениях может веселить народ (в чем, собственно, и заключается цель ее существования). Но ожидать от нее что она будет понимать что такое реальный мир и его закономерности, в той степени, как мы, не приходится.
Кроме того, если посмотреть полное видео (оно прикольное):
https://youtu.be/yX9aQFq8Sng ,
будет видно, что в нем на самом деле есть несколько дискретных сцен определенной тематики, в рамках которых происходит генерация, и которые потом переходят в друг друга. Так что скорее всего, человек просто вводил вполне конкретные отдельные промпты с описанием того, что надо показать (в духе "dinosaurs in the forest"), а потом делал по нескольку генераций на каждый плюс переходы. В итоге нейросеть честно попыталась предсказать, что автор промптов хотел увидеть в ответ на свой текст (на основании того, что нарисовали по этому поводу другие люди), что мы и видим на видео.
Впрочем, в одном нейросеть меня переиграла: она потратила на генерацию двухголовых динозавров с тремя ногами явно меньше времени, чем я потратила на разбор ржаки, смонтированной на коленке из исходного видоса ради рекламы каких-то додиков.🚬
Почему генератор картинок на основе StableDiffusion не может предсказывать будущее Вселенной.
https://youtube.com/shorts/-WFQVKdIfqM?feature=share
В этом (и других подобных) видео все преподносится так словно бы генеративная нейросеть на основе stable diffusion способна как человек, сесть и задуматься над глубокими научными и философскими вопросами, в данном случае, о том, каково прошлое и будущее Вселенной и Человечества, и составить свое мнение на этот счёт.
Естественно, в реальности обучение (и сама архитектура) нейросети подобного типа устроены так, что таких способностей она приобрести никак не может. Её просто учат "смотреть" на картинки из интернета и "списывать, но не точь-в-точь". Другими словами, нейросеть учат генерировать картинки, более-менее похожие на то, что было в обучающей выборке, но в то же время добавлять в них и элемент случайности, делая их достаточно разнообразными, чтобы кожаные не скучали. А параллельно с картинкой ей показывают еще и подпись, в результате чего она выучивает, какое есть соответствие между картинками и словами. Если правильно настроить этот процесс, нейросеть в дальнейшем успешно генерирует картинки по заданному тексту, в том числе и делая комбинации, которых не было в обучающей выборке (Конечно, я опускаю тут все детали касательно того, как именно она эта делает - например, что генерация происходит в несколько этапов, обучение может быть устроено несколько сложнее и т.д., потому что думаю, что это не релевантно текущему посту).
По итогу, то, как такая нейросеть "видит мир" очень сильно отличается от того, как видит его человек. Например, она не понимает, что фотографии, которые ей показывают, являются изображениями трехмерных объектов; ее представления о пространстве вообще очень ограничены. Так, по умолчанию она имеет большие сложности с тем, чтобы понимать, что такое повороты картинки, что такое пространственные отношения типа "на", "под" и т.п. Все эти сложности вызваны не только ограничениями архитектуры, но и тем, что она воспринимает изображение как плоский набор пикселей и ничего больше, ведь у нее нет опыта прямого взаимодействия с реальным миром как у нас. Есть, конечно, много работ где модели по разному пытаются научить преодолеть эти сложности, но это не те модели, которые генерируют картинки для подобных видео.
Конечно, нейросеть молодец что при всех своих ограничениях может веселить народ (в чем, собственно, и заключается цель ее существования). Но ожидать от нее что она будет понимать что такое реальный мир и его закономерности, в той степени, как мы, не приходится.
Кроме того, если посмотреть полное видео (оно прикольное):
https://youtu.be/yX9aQFq8Sng ,
будет видно, что в нем на самом деле есть несколько дискретных сцен определенной тематики, в рамках которых происходит генерация, и которые потом переходят в друг друга. Так что скорее всего, человек просто вводил вполне конкретные отдельные промпты с описанием того, что надо показать (в духе "dinosaurs in the forest"), а потом делал по нескольку генераций на каждый плюс переходы. В итоге нейросеть честно попыталась предсказать, что автор промптов хотел увидеть в ответ на свой текст (на основании того, что нарисовали по этому поводу другие люди), что мы и видим на видео.
Впрочем, в одном нейросеть меня переиграла: она потратила на генерацию двухголовых динозавров с тремя ногами явно меньше времени, чем я потратила на разбор ржаки, смонтированной на коленке из исходного видоса ради рекламы каких-то додиков.