Onigiri

ИИ развивается все быстрее и быстрее. Что будет в 2025? Попробую примерно угадать по текущим трендам.

Генерация изображений

Я уже много здесь писал про возможность для нейросетей детально понимать и менять изображения. Сейчас картинки генерируются без детального понимания мультимодального контекста. Нельзя нейросеть попросить сгенерировать логотип, и потом сказать: "а сделай обводку потолще". При этом, подобные технологии уже показали и OpenAI, и Google, и xAI, и даже опенсорсные модели скидывали в комментах под предыдущими постами.

Так много про это пишу, потому что считаю, что это очень важный момент. Представьте, что через год можно будет скинуть нейросети мем и попросить не просто поменять надпись, а еще и поместить персонажа в совсем новую ситуацию, что до этого никто не рисовал. А когда-нибудь нейросети научатся шутить и будут бесконечно генерировать мемы.

Мультимодальность

Все не ограничится только картинками. Уже сейчас нейросети неплохо генерируют музыку, голос и даже 3D-модели. Скорее всего, в следующем году нейросети смогут генерировать контент в еще большем количестве областей и с более детальным пониманием контекста.

Агенты

Представим, что у нас есть ИИ-помощник, которому мы говорим установить Minecraft со списком модов, которые нам нужны. Чтобы выполнить эту задачу, нейросети потребуется сделать много шагов, а в каждом из них она может сделать ошибку. Из-за большого количества этих шагов, ошибка становится почти неизбежной, поэтому такие ИИ-агенты пока не особо распространены.

Но нейросети становятся лучше. К тому же, в этом году мы увидели модели o1 и даже o3, которые дообучены на последовательностях рассуждений. В теории можно теперь подобными методами дообучить нейросеть на последовательностях действий, и в следующем году мы скорее всего увидим что-то подобное.

Генерация видео

Когда в прошлом году многие говорили, что уже через год будет доступна генерация видео, мне казалось, что это вряд ли произойдет так быстро, и для этого потребуется еще несколько лет. А сейчас эта технология уже работает, хотя по качеству её можно сравнить с генерацией изображений середины 2022 года. Генерация видео все еще находится на начальных этапах.

С другой стороны, в 2022 году генерация изображений была чем-то очень экспериментальным, а сейчас уже целый год крупные компании обучают модели генерации видео. Поэтому мне снова кажется, что в следующем году её качество не улучшится значительно.

Роботы

Про роботов говорят уже очень давно, и за последние 10 лет мы увидели интересные примеры от Boston Dynamics. Однако именно в 2024 году появилось большое количество новых роботов от разных компаний. Думаю, что в следующем году ранние прототипы роботов, умеющих разговаривать, ориентироваться в пространстве и выполнять небольшие задания, уже начнут поступать в продажу. Мы увидим многочисленные популярные обзоры на них, но пока большое распространение они, конечно же, получить не успеют.