что-то на DL-ском

моделирование языка вычисляется так: проецируем скрытое состояние на матрицу встраивания слов, чтобы получить logits ⏭ применяем cross-entropy к хорошему ответу

предсказание следящего предложения : пропускаем скрытое состояние последнего токена через linier layer ⏭ получаем оценку ⏭ cross-entropy (чтобы правильно классифицировать хороший ответ среди отвлекающих)