AbstractDL

Апдейт моделей Gemini 1.5 Pro & FlashВышла в свет очередная вещь, над которой я работал летом –...
Читать далее
https://huggingface.co/glif/how2drawкрайне любопытная lora how2drawЦенность опенсурса в возможности...
Читать далее
o1 — новая модель от OpenAI, которая думает перед ответомВроде бы это совсем новая модель, дообученн...
Читать далее
Attention Heads of LLM — A surveyТрансформеры это всё ещё чёрный ящик или уже нет? За последние неск...
Читать далееКлассный хабр от tech_priestess про внутреннюю размерность фигур и пространств эмбеддингов. TwoNN по...
Читать далее
🔺 Transformer ExplainerКлассная интерактивная визуализация про то, как работает трансформер.Можно п...
Читать далееКстати, вот ещё хорошие новости для всех, кто интересуется темой mechanistic interpretability. Появи...
Читать далее
CoRe: лучший способ "клонирования" внешности или концепта при помощи диффузииСуществует 3 больших на...
Читать далее
To Code, or Not To Code? Насколько важны данные с кодом в претрейне LLM? (by Cohere)Да, код нужен, и...
Читать далее
MINT: крупнейший мультимодальный датасет на 1T токенов (by Salesforce)Это хорошо очищенный датасет,...
Читать далее