И последнее, почему ещё это круто:



OpenAI заметили, что если сначала модель учить на коде, а после этого - на обычных текстах, то это улучшает качество. Я не видел исследования по этому поводу, однако GPT-3.5 была получена именно таким образом. Если у вас есть ссылочка - поделитесь, пожалуйста, в комментах.



Интуиция здесь такая, что код - он более структурирован и логичен, в нем нет ошибок (если его предварительно валидировать на предмет компиляции, ну, чтобы он хотя бы запускался. Баги то ясно, что останутся), и при этом он всё равно обладает свойствами языка (к тому же, еще и комментарии встречаются!). А после того, как модель уже выучила паттерны, что и как взаимодействует - можно наполнять её знаниями реального мира, разными языками, и так далее.



Соответственно, релиз такой мощной и очень хорошо затюненной модели для кода может положить начало разработке качественной языковой модели, при этом маленькой - а значит легкой на подъем (для дообучения и для инференса, то есть применения).