моделирование языка вычисляется так: проецируем скрытое состояние на матрицу встраивания слов, чтобы получить logits применяем cross-entropy к хорошему ответу



предсказание следящего предложения
: пропускаем скрытое состояние последнего токена через linier layer получаем оценку cross-entropy (чтобы правильно классифицировать хороший ответ среди отвлекающих)