моделирование языка вычисляется так: проецируем скрытое состояние на матрицу встраивания слов, чтобы получить logits ⏭ применяем cross-entropy к хорошему ответу
предсказание следящего предложения : пропускаем скрытое состояние последнего токена через linier layer ⏭ получаем оценку ⏭ cross-entropy (чтобы правильно классифицировать хороший ответ среди отвлекающих)
предсказание следящего предложения : пропускаем скрытое состояние последнего токена через linier layer ⏭ получаем оценку ⏭ cross-entropy (чтобы правильно классифицировать хороший ответ среди отвлекающих)