
To Code, or Not To Code? Насколько важны данные с кодом в претрейне LLM? (by Cohere)
Да, код нужен, и очень сильно. На самом деле уже довольно давно был консенсус на этот счёт, но подробно влияние кода не изучали.
Теперь можно ставить точку в этом вопросе — в Cohere проделали очень подробный ablation study: данные с кодом улучшают не только кодинг и ризонинг, но и даже world knowledge! То есть после их добавления в претрейн модели лучше запоминают текстовые знания.
Статья
Да, код нужен, и очень сильно. На самом деле уже довольно давно был консенсус на этот счёт, но подробно влияние кода не изучали.
Теперь можно ставить точку в этом вопросе — в Cohere проделали очень подробный ablation study: данные с кодом улучшают не только кодинг и ризонинг, но и даже world knowledge! То есть после их добавления в претрейн модели лучше запоминают текстовые знания.
Статья