44 Гб исходников Яндекс утекли в сеть



Сегодня некий доброжелатель слил 44 гигов исходников разных продуктов Яндекса. Утекли исходники почти всех продуктов. Там есть и Почта, и Такси, и Диск, и Алиса. Вряд ли эти исходники кто-то сможет использовать напрямую, этого точно не стоит бояться.



Оказалось, что Яндекс массово использует Телеграм в качестве рабочего мессенджера. В файлах есть куча ссылок на чатики в телеграме, по которым можно было перейти и вступить. Сразу после новости о сливе большую часть из них подчистили, но не все.



Пользовательских данных, в первом приближении, там нет. Зато есть много интересного в репозитории Алисы. Самой говорящей модели не нашлось, но есть много разных скриптов для ее обучения, фрагментов обучающих данных и т.д. Есть выборки реальных (анонимных) запросов пользователей к Алисе. На скриншотах фрагмент файла с реальными призывами к Алисе замолчать. Осторожно, нецензурная брань 🤬



А теперь представь, что будет, если дообучить Алису на этой выборке...



XOR // #news