Пс, парень, не хочешь немного нейросетевой магии?
Еще в 2015 году нейросети научились описывать простые движения на видео. Дело-то нехитрое — распознай объекты, их действия и собери результат в текст, понятный человеку. С тех пор мало что изменилось, пока на днях энтузиасты из MIT не выпустили свежую архитекутуру, которая шагнула далеко вперед на пути к нашей модели восприятия видеоконтекста.
Она решает сразу несколько задач — и описывает текущие действия, и вангует, что будет дальше. Пока первые победы нейросеть показывает на предметах вроде кубиков, но это нормально — все мы с чего-то начинали. К тому же, на простых объектах проще генерировать синтетические данные для обучения. Короче, смотрите видео.
Как это повлияет на наше будущее?
Я вижу два крутых сценария. Первый — нейросети пойдут работать комментаторами в (кибер) спортивные лиги, где на профессионалов из кожи и мяса не хватает бюджета. Второй — нейросетями прокачают поиск на YouTube, чтобы можно было описать действие из видео в поисковой строке, а нейросетки сами найдут ролик, где дядя вылезает из окна и кричит «вы кто такие?». Поскорей бы.
Еще в 2015 году нейросети научились описывать простые движения на видео. Дело-то нехитрое — распознай объекты, их действия и собери результат в текст, понятный человеку. С тех пор мало что изменилось, пока на днях энтузиасты из MIT не выпустили свежую архитекутуру, которая шагнула далеко вперед на пути к нашей модели восприятия видеоконтекста.
Она решает сразу несколько задач — и описывает текущие действия, и вангует, что будет дальше. Пока первые победы нейросеть показывает на предметах вроде кубиков, но это нормально — все мы с чего-то начинали. К тому же, на простых объектах проще генерировать синтетические данные для обучения. Короче, смотрите видео.
Как это повлияет на наше будущее?
Я вижу два крутых сценария. Первый — нейросети пойдут работать комментаторами в (кибер) спортивные лиги, где на профессионалов из кожи и мяса не хватает бюджета. Второй — нейросетями прокачают поиск на YouTube, чтобы можно было описать действие из видео в поисковой строке, а нейросетки сами найдут ролик, где дядя вылезает из окна и кричит «вы кто такие?». Поскорей бы.