Расскажите что вы знаете о LLM: больших языковых моделях ? Расскажите про наиболее известным LLM ?



Большие языковые модели — это нейросетевые модели, использующие алгоритмы машинного обучения, позволяющие обобщать, прогнозировать, генерировать человеческие языки на основе больших наборов текстовых данных. Принцип работы таких моделей основан на определении вероятностного сочетания слов и их значений в заданном контексте с использованием определенных алгоритмов вычислений.



В БЯМ чаще всего использовалась архитектура трансформера, которая с 2018 года стала стандартной техникой глубокого обучения для последовательных данных (ранее наиболее распространёнными были рекуррентные архитектуры, такие как модели с долгой кратковременной памятью). БЯМ обучаются без учителя на неаннотированном тексте. Трансформер при генерации вывода слева направо обучается максимизировать вероятность, назначенную следующему слову в обучающих данных, с учётом предыдущего контекста. В качестве альтернативы БЯМ может использовать двунаправленный трансформер (как в примере BERT), который присваивает распределение вероятностей по словам, имеющим доступ как к предыдущему, так и к последующему контексту. В дополнение к задаче прогнозирования следующего слова или «заполнения пробелов» БЯМ могут быть обучены вспомогательным задачам, которые проверяют их понимание распределения данных, таких как прогнозирование следующего предложения (NSP), в котором представлены пары предложений и модель должна предсказать, появятся ли они рядом в обучающем корпусе текстов.



В настоящее время основное применение LLM находят в чат-ботах
, написании статей, маркетинговых текстов, электронных писем, переводах текстов, используются поисковыми системами и т.д.



К наиболее известным LLM относят:



GPT ( OpenAI). Является одной из крупнейших языковых моделей, обученной на огромном количестве разнообразных наборов данных и 175 млрд параметров. Модель умеет писать тексты (статьи, стихи и т.д.), переводить, отвечать на вопросы по тексту. Архитектура модели transformer1



LaMDA ( Google). Относится к разговорным нейросетевым моделям. Построенная на архитектуре transformer и обученная также на текстовых наборах данных модель способна вести диалог.



BERT ( Google). Данная нейросетевая модель в большей степени используется в поисковых запросах. Модель обучена в целях увеличения эффективности процесса понимания контекста запроса пользователя для выдачи релевантного результата. Архитектура модели transformer.



BLOOM (Исследовательская группа BigScience). На текущий момент является самой большой многоязычной нейросетевой моделью. Обученная на огромных объемах текстовых данных и 176 млрд параметров с использованием вычислительных ресурсов промышленного масштаба модель способна генерировать текст на 46 языках и 13 языках программирования.



LLM – достаточно мощный инструмент, однако перспективы их повсеместного применения в настоящее время и в дальнейшем довольно туманны, ввиду недостаточной изученности и наличия разного рода неточностей, выявленных в их работе. Имеющиеся на текущий момент знания и опыт в применении моделей демонстрируют не только большие достижения, но также и огромное количество проблем, только усиливающих скептицизм к использованию LLM. Так, например, у многих моделей была выявлена склонность к генерации некачественного, провокационного и даже оскорбительного контента.



Специалисты в области языковых моделей также расходятся во мнении о возможном позитивном развитии данного направления искусственного интеллекта в дальнейшем. Одни утверждают, что предел развития LLM практически достигнут, по мнению других – масштабирование LLM будет способствовать формированию более умных моделей. Однако, текущее положение показывает, что использование LLM сейчас видится в большей степени в качестве вспомогательного инструмента, без всецелого полагания на результат, а применение в особо значимых сферах деятельности человека может привести к необратимым последствиям.



@machinelearning_interview