DLStories

Смотрите, какую штуку анонсировали Google:

Pathways — единая мультимодальная модель для решения сразу миллионов различных задач.

#ai_inside

Pathways анонсировали Google 28 октября. Вот в чем ее идея:

Сейчас большинство моделей машинного обучения обучены решать лишь одну узконаправленную задачу: машинный перевод, сегментация изображений и т.д. Следующий, логичный шаг в развитии моделей ML — создание мультимодальных моделей, способных решать сразу несколько различных задач и работать сразу с несколькими модальностями: картинками, текстом, звуком, запахами и т.д. Почему создание мультимодальных моделей суперважно для развития ИИ, мы писали в постах тут и тут.

На самом деле, мультимодальные модели уже есть — CLIP, DALL·Е, некоторые трансформеры. Но они недалеко ушли: решают не больше десятка различных задач. Pathways же должен уметь работать сразу с миллионами различных задач.

В Google говорят, что Pathways будет работать с "multiple senses" — визуальной, текстовой, звуковой и тактильной информацией. Это позволит модели эффективнее решать многие задачи, чем это делают "одномодальные" модели (почему это так, мы писали тут). Также такая модель сможет быстро дообучаться на новые задачи, которые возникнут перед человеком. И людям больше будет не нужно тратить много времени на эксперименты по созданию спецефических моделей для новой задачи.

Все это звучит пока что как сказка, если честно. Сложно представить, сколько нужно потратить времени и сил на эксперименты для создания эффективной архитектуры такой сети. А также на каком объеме данных такая модель должна учиться и сколько времени это займет.. Наверное, первая версия Pathways все же не сможет решать все миллион задач так же эффективно, как специализированные модели.

В любом случае, сроков выхода Pathways пока нет. Ждем) Там и увидим)

Ссылки:

Статья-анонс

Видео