
Помните, зачем создавалась соцсеть BluSky? Если вкратце, это был блокчейн твиттер. Пользователям понравилось, что, в отличие от теперь уже X, на ваших постах НЕ БУДУТ обучаться нейросети!
А теперь давайте подумаем хорошенько, соцсеть с открытым исходным кодом, где вся активность записывается в блокчейн и хранится в одном месте, заглянуть в которое может каждый. Что может пойти не так?
Некий Даниел ван Стрейнг использовал ОФИЦИАЛЬНЫЙ API BlueSky, чтобы собрать (хранящиеся в удобном виде) миллионы НЕОБЕЗЛИЧЕННЫХ постов пользователей. А поскольку это блокчейн, там ведь хранятся и удалённые посты. Собрал датасет и выложил его в открытый доступ. На странице проекта он писал, что данные можно использовать для «создания автоматизированных систем публикации для Bluesky, создание поддельного или имитированного контента, извлечение личной информации о пользователях, [и] любые цели, которые нарушают Условия обслуживания Bluesky».
Представьте себе, через что нужно пройти сторонней компании, чтобы из условного Х достать такой прекрасный датасет.
Разумеется, пользователи обрушились, мол, “как так, почему наши данные теперь в сети доступны всем в САМОМ УДОБНОМ виде?”.
Так как исходный пакет данных стали сверхпопулярным, люди моментально начали подражать и сеть затопило троллями. Теперь пользователи создают огромные наборы неанонимных данных, взятых из публичного хранилища платформы. Самый большой пакет содержит почти 300 миллионов постов.
Дайте обезьяне достаточно времени, и она напишет войну и мир. Дайте датамайнерам достаточно времени, и все данные, которые плохо или даже хорошо лежат, нейросети будут иметь в виду.
А теперь давайте подумаем хорошенько, соцсеть с открытым исходным кодом, где вся активность записывается в блокчейн и хранится в одном месте, заглянуть в которое может каждый. Что может пойти не так?
Некий Даниел ван Стрейнг использовал ОФИЦИАЛЬНЫЙ API BlueSky, чтобы собрать (хранящиеся в удобном виде) миллионы НЕОБЕЗЛИЧЕННЫХ постов пользователей. А поскольку это блокчейн, там ведь хранятся и удалённые посты. Собрал датасет и выложил его в открытый доступ. На странице проекта он писал, что данные можно использовать для «создания автоматизированных систем публикации для Bluesky, создание поддельного или имитированного контента, извлечение личной информации о пользователях, [и] любые цели, которые нарушают Условия обслуживания Bluesky».
Представьте себе, через что нужно пройти сторонней компании, чтобы из условного Х достать такой прекрасный датасет.
Разумеется, пользователи обрушились, мол, “как так, почему наши данные теперь в сети доступны всем в САМОМ УДОБНОМ виде?”.
Так как исходный пакет данных стали сверхпопулярным, люди моментально начали подражать и сеть затопило троллями. Теперь пользователи создают огромные наборы неанонимных данных, взятых из публичного хранилища платформы. Самый большой пакет содержит почти 300 миллионов постов.
Дайте обезьяне достаточно времени, и она напишет войну и мир. Дайте датамайнерам достаточно времени, и все данные, которые плохо или даже хорошо лежат, нейросети будут иметь в виду.