
Parti Hard
Парад моделей для генерации изображений по описанию не останавливается. После диффузионных DALL-E 2 от OpenAI и Imagen от Google Research, последние вывели на подиум ещё и Parti (Pathways Autoregressive Text-to-Image).
У неё авторегрессионная архитектура, которая чаще всего используется для масштабных языковых моделей. Они разбивают текст на фрагменты — «токены» — и обучаются предсказывать следующий, исходя из предыдущих и из контекста. Аналогичным образом и Parti работает с текстом и изображениями.
Также, подобно языковым моделям, в Parti вычисляется огромное количество параметров: различные версии системы включают 350 млн, 750 млн, 3 млрд и 20 млрд значений! Чем их больше, тем реалистичнее генерация, что видно на примерах с кенгуру. Но самое главное — большая Parti даже пишет без ошибок! В отличии от DALL-E 2 и Imagen.
Модель обучали с помощью облачного вычислительного кластера Google Cloud TPUs. Опираясь на текстовую «затравку», она генерирует изображения размерами 256 х 256 пикселей, после чего повышают разрешение до 1024 х 1024.
Пока ни Imagen, ни Parti нет в открытом доступе. Якобы из-за того, что обучались на массиве данных, собранном из интернета, и «унаследовали» соответствующие токсичные стереотипы. Мол, вот вычистим, тогда и выложим.
Но на деле причина иная. И кроется она в первом слове полного названия модели. Pathways — это разрабатываемая в Google мультимодальная архитектура, которая может лечь в основу будущего сильного ИИ. Возможно, Parti стала результатом отработки отдельных компонентов такой системы, или же сама войдет в её состав.
Почитать подробнее: для всех и для продвинутых (раз и два)
#Обработка_естественного_языка, #Генеративные_модели, #Text2Image, #Сильный_искусственный_интеллект
Парад моделей для генерации изображений по описанию не останавливается. После диффузионных DALL-E 2 от OpenAI и Imagen от Google Research, последние вывели на подиум ещё и Parti (Pathways Autoregressive Text-to-Image).
У неё авторегрессионная архитектура, которая чаще всего используется для масштабных языковых моделей. Они разбивают текст на фрагменты — «токены» — и обучаются предсказывать следующий, исходя из предыдущих и из контекста. Аналогичным образом и Parti работает с текстом и изображениями.
Также, подобно языковым моделям, в Parti вычисляется огромное количество параметров: различные версии системы включают 350 млн, 750 млн, 3 млрд и 20 млрд значений! Чем их больше, тем реалистичнее генерация, что видно на примерах с кенгуру. Но самое главное — большая Parti даже пишет без ошибок! В отличии от DALL-E 2 и Imagen.
Модель обучали с помощью облачного вычислительного кластера Google Cloud TPUs. Опираясь на текстовую «затравку», она генерирует изображения размерами 256 х 256 пикселей, после чего повышают разрешение до 1024 х 1024.
Пока ни Imagen, ни Parti нет в открытом доступе. Якобы из-за того, что обучались на массиве данных, собранном из интернета, и «унаследовали» соответствующие токсичные стереотипы. Мол, вот вычистим, тогда и выложим.
Но на деле причина иная. И кроется она в первом слове полного названия модели. Pathways — это разрабатываемая в Google мультимодальная архитектура, которая может лечь в основу будущего сильного ИИ. Возможно, Parti стала результатом отработки отдельных компонентов такой системы, или же сама войдет в её состав.
Почитать подробнее: для всех и для продвинутых (раз и два)
#Обработка_естественного_языка, #Генеративные_модели, #Text2Image, #Сильный_искусственный_интеллект