Закончилась первая фаза разработки OpenAssistant - опенсурсного аналога ChatGPT, сделанного в коллаборации большого количества людей со всего комьюнити вместе с организацией LAION.



Более 13'000 человек приняли участие в сборе датасетов, очистке данных и обучении моделей (абсолютное большинство, конечно, только в разметке - написании ответов вместо ассистента и оценка ответов, чтобы понять, какой лучше из нескольких).

Собрано более 150'000 сообщений, размечено 10'000 отдельных разговоров, а выбор топиков был очень разнообразным (не просто болталка общего назначения). И вот ещё - большое количество языков, причём русский язык оказался на третьем месте, уступив лишь английскому и испанскому.



Статья: pdf файл (обзор демографии разметчиков внутри)

Видео-обзор от одного из главных мейнтейнеров проекта (Yannic Kilcher): тут

Ссылка на датасет: вот

Модели можно найти: здесь

Поиграться с ботом в браузере: тык



Как результат ожидаю, что потихоньку люди с нахайпленной, но всё же базовой LLAMA / Alpaca начнут переходить на эту модель и её аналоги, а это уже приведёт к среднему улучшению получаемых результатов.



Но главное - stay tuned, это лишь первая итерация, и планируется дальнейшее развитие и улучшение проекта.



UPD:🫢🤭🤭 в видосе Yannic говорит, кек, что самые лучшие модели, которые они натренили, пока держат в привате, но они доступны в Web-е по подписке. Мол, они очень мощные (<...are so powerful and capable>). И, по крайней мере пока, они не будут их публиковать. Остальное (включая модель на 12B параметров) доступно.



Он сказал это в шутку ("I'm kidding"), я это пропустил...однако моделей пока всё еще на HuggingFace нет 😞 Спасибо @DukhaninDY за внимательность