Где еще можно искать данные:



1) Вернуться к истокам - оцифровка архивов: Куча исторических документов, таких как рукописи, газеты и письма, все еще ждут своей очереди на оцифровку. Работая вместе с библиотеками, музеями и архивами, можно раздобыть много уникальных данных (маленькая рекламка dbrain.io).

2) Личные данные пользователей. Если кто-то явно согласен предоставить свои личные данные из электронных писем, текстовых сообщений или публикаций в соцсетях, мы можем использовать их для улучшения обучающих данных. Главное, не забыть про конфиденциальность и анонимность.

3) Устная история - сбор историй из первых уст: Если работать с организациями и сообществами для сбора устных историй, мы получим интервью, рассказы и анекдоты из разных культур и языков. Расшифровав и переведя записи, сможем расширить языковое разнообразие и культурный контекст обучающих данных.

4) Нишевые онлайн-сообщества и форумы - не только для гиков: На свете полно нишевых онлайн-сообществ и форумов, где обсуждают самые разные темы и интересы. Можно попробовать подход, похожий на краудсорсинг, когда разработчики сами собирают данные с таких платформ и делятся ими с другими.

5) Любительские и независимые СМИ - уникальный контент: Местные газеты, независимые радиостанции, подкасты и каналы YouTube часто создают уникальный контент, которого не найдешь в основных СМИ.





Так, и как это связано с dbrain? В 2017 году мы, как компания, решили демократизировать создание новых ML решений, используя комбинацию платформы для разметки и сбора данных и платформы для соревнований между дата-саентистами. Идея заключалась в том, чтобы блокчейн помогал контролировать вклад каждого человека в готовую модель. Например, я говорю: "Давайте создадим LLM: 30% выручки отдам разметчикам, 50% выручки ресерчерам, 20% мои". С текущими моделями возник бы вопрос, на каком железе учить все это? Тогда модельки были меньше на 4-5 порядков и этого вопроса не стояло. Ждем, когда кто-то сделает такой опенсорс-конкурент open.ai!



@aihappens