ForkLog AI

🗂 IBM представила набор данных CodeNet для обучения нейросетей программированию.

Он состоит из 14 млн фрагментов кода и 500 млн строк на 55 языках -- от COBOL и FORTRAN до C ++ и Python.

🧑‍💻 Разработчики могут использовать его для поиска кода и обнаружения клонов. Он может также служить в качестве эталонного набора данных.

Кроме того, каждый образец помечен временем работы процессора и объемом памяти, что позволяет исследователям разрабатывать системы автоматической коррекции кода.

🌐 IBM сделала CodeNet общедоступным и разместила репозиторий на GitHub.

#IBM #датасет