🗂 IBM представила набор данных CodeNet для обучения нейросетей программированию.



Он состоит из 14 млн фрагментов кода и 500 млн строк на 55 языках -- от COBOL и FORTRAN до C ++ и Python.



🧑‍💻 Разработчики могут использовать его для поиска кода и обнаружения клонов. Он может также служить в качестве эталонного набора данных.



Кроме того, каждый образец помечен временем работы процессора и объемом памяти, что позволяет исследователям разрабатывать системы автоматической коррекции кода.



🌐 IBM сделала CodeNet общедоступным и разместила репозиторий на GitHub.



#IBM #датасет