Вопрос эксперту: на какие модели ИИ обратить внимание?
Решила разнообразить наш ламповый канал новым форматом. Давно хотела позадавать вопросы экспертам, не всё ж мне одной здесь умничать.
Первым вещать вызвался Андрей Кузнецов — исполнительный директор по исследованию данных в Sber AI. Я спросила у него о самых интересных ИИ-моделях последних недель (просто вспомнила недавний пост про каталог сервисов).
«Очень интересные модели Unified IO, GATO. Их полезность заключается в том, что обе архитектуры являются мультимодальными, и каждая может решать несколько задач сразу. Это одна из ключевых концепций сильного искусственного интеллекта, которая лежит в основе человеческого мышления. Что UnifiedIO, что GATO могут принимать на вход данные визуальной, текстовой, видео и др модальностей и их комбинации и решать одну из поставленных задач.
Например, по видеопоследовательности можно сразу ответить: о чем видео, какие ключевые сущности в этом видео, расшифровать аудиодорожку и тд. Раньше для этого нужно было делать несколько отдельных моделей, а с появлением таких примеров, как UnifiedIO GATO, это может делать одна архитектура.
С точки зрения генеративного ИИ, безусловно, первенство можно отдать таким моделям как Imagen (Text-to-Image) и DreamFusion (Text-to-3D). Они становятся новым источником вдохновения как для исследователей в области компьютерного зрения, так и для художников и дизайнеров».
Решила разнообразить наш ламповый канал новым форматом. Давно хотела позадавать вопросы экспертам, не всё ж мне одной здесь умничать.
Первым вещать вызвался Андрей Кузнецов — исполнительный директор по исследованию данных в Sber AI. Я спросила у него о самых интересных ИИ-моделях последних недель (просто вспомнила недавний пост про каталог сервисов).
«Очень интересные модели Unified IO, GATO. Их полезность заключается в том, что обе архитектуры являются мультимодальными, и каждая может решать несколько задач сразу. Это одна из ключевых концепций сильного искусственного интеллекта, которая лежит в основе человеческого мышления. Что UnifiedIO, что GATO могут принимать на вход данные визуальной, текстовой, видео и др модальностей и их комбинации и решать одну из поставленных задач.
Например, по видеопоследовательности можно сразу ответить: о чем видео, какие ключевые сущности в этом видео, расшифровать аудиодорожку и тд. Раньше для этого нужно было делать несколько отдельных моделей, а с появлением таких примеров, как UnifiedIO GATO, это может делать одна архитектура.
С точки зрения генеративного ИИ, безусловно, первенство можно отдать таким моделям как Imagen (Text-to-Image) и DreamFusion (Text-to-3D). Они становятся новым источником вдохновения как для исследователей в области компьютерного зрения, так и для художников и дизайнеров».