AbstractDL

Апдейт моделей Gemini 1.5 Pro & FlashВышла в свет очередная вещь, над которой я работал летом –...

https://huggingface.co/glif/how2drawкрайне любопытная lora how2drawЦенность опенсурса в возможности...

o1 — новая модель от OpenAI, которая думает перед ответомВроде бы это совсем новая модель, дообученн...

Attention Heads of LLM — A surveyТрансформеры это всё ещё чёрный ящик или уже нет? За последние неск...

Классный хабр от tech_priestess про внутреннюю размерность фигур и пространств эмбеддингов. TwoNN по...

🔺 Transformer ExplainerКлассная интерактивная визуализация про то, как работает трансформер.Можно п...

Кстати, вот ещё хорошие новости для всех, кто интересуется темой mechanistic interpretability. Появи...

CoRe: лучший способ "клонирования" внешности или концепта при помощи диффузииСуществует 3 больших на...

To Code, or Not To Code? Насколько важны данные с кодом в претрейне LLM? (by Cohere)Да, код нужен, и...

MINT: крупнейший мультимодальный датасет на 1T токенов (by Salesforce)Это хорошо очищенный датасет,...