
Apple представила OpenELM, семейство небольших, но эффективных языковых моделей, предназначенных для приложений на устройствах (не хотят отставать от Microsoft). Диапазон параметров этих моделей варьируется от 270M до 3B, что делает их пригодными для развертывания на мобильных устройствах.
Ключевое нововведение заключается в архитектуре «послойного масштабирования» — стратегически распределяет меньше параметров для начальных слоев трансформера рядом с входом и постепенно увеличивает количество параметров по направлению к выходным слоям. Этот подход оптимизирует вычислительные ресурсы на основе различной сложности информации на каждом уровне.
По качественным результатам (3B-модель: ARC-C —> 42.24%, MMLU —> 26.76%, HellaSwag —> 73.28%), конечно, не сравнить с LLM, но по эффективности — вполне пригодно для локальных задач.
Похоже, на поле LLM скоро появится еще один крупный игрок. Запасаемся попкорном.
@Unlim_AI
Ключевое нововведение заключается в архитектуре «послойного масштабирования» — стратегически распределяет меньше параметров для начальных слоев трансформера рядом с входом и постепенно увеличивает количество параметров по направлению к выходным слоям. Этот подход оптимизирует вычислительные ресурсы на основе различной сложности информации на каждом уровне.
По качественным результатам (3B-модель: ARC-C —> 42.24%, MMLU —> 26.76%, HellaSwag —> 73.28%), конечно, не сравнить с LLM, но по эффективности — вполне пригодно для локальных задач.
Похоже, на поле LLM скоро появится еще один крупный игрок. Запасаемся попкорном.
@Unlim_AI