надо было dbrain запускать не в 2017, а сейчас. Ниже расскажу почему :)





Так, если забыть на время про возможные технические прорывы в AI, то текущие LLMки (напоминаю, это все, что сейчас пишет тексты, включая ChatGPT) можно улучшить двумя способами: делать модели жирнее и добавлять больше данных. Поскольку железо в мире кончилось (это правда, не шутка), давайте поговорим про то, какие данные уже есть в моделях и где можно найти новые. Начнем с текущих датасетов, откуда они вообще взяты:



1) Веб-скрейпинг - ловим данные в интернете: Можно использовать инструменты для парсинга веб-страниц, чтобы достать текст, картинки и другой контент с сайтов, форумов и блогов. Но помним про юридические ограничения некоторых сайтов.

2) Общедоступные API - крутое решение: Многие сайты, платформы и организации предлагают API (интерфейсы прикладного программирования) для доступа к своим данным. Самый известный пример - Reddit. Но важно помнить, что для части данных из этих API нельзя обучать свои модели.

3) Порталы открытых данных - мечта исследователя: Правительства, международные организации и научные институты часто предоставляют порталы с открытыми данными, где есть куча структурированных данных. Примеры включают data.gov, открытые данные Всемирного банка и портал открытых данных Евросоюза.

4) Соглашения об обмене данными - будем дружить: Если заключить партнерские отношения или соглашения об обмене данными с другими организациями, компаниями или учреждениями, можно получить доступ к закрытым или частным данным. Это может значительно улучшить данные, доступные для обучения LLM.

5) Краудсорсинг - все вместе веселей: Можно привлечь много людей для разметки данных, которые затем можно использовать для обучения LLM. Примеры таких платформ - Amazon Mechanical Turk, Figure Eight (теперь Appen) и Яндекс Толока. Кстати, Яндекс запустил целый отдельный проект для разметки данных под свою LLM. Без этого блока обучить конкурента ChatGPT было бы невозможно.



@aihappens