У меня появилась догадка, почему ChatGPT сгенерировал водянистую жижу в диалоге про LSTM и Transformer (см. скриншоты из пред-предыдущего поста, начиная с 3-го).

Скорее всего, в своей предобучающей выборке модель видела рассуждения о том, что LSTM "работает лучше" для "длинных последовательностей" ("long sequences") без исторического контекста и усвоила это утверждение как нечто в вакууме, подумав, что LSTM просто работает лучше всех. В то время, как на самом деле утверждения о том, что LSTM работает лучше на таких последовательностях, писались в контексте сравнения с RNN и прочими более ранними потугами в моделирование последовательных данных. Большинство текстов, в которых эти утверждения встречались, скорее всего вообще были написаны вообще до появления Transformer-архитектур общего назначения.

В свою очередь, тексты про Трансформеры, в которых рассуждается, что Transformer "работает лучше" для "больших последовательностей" ("large sequences") были написаны позже, и здесь понятие "лучше" идет уже не только в контексте сравнения с RNN, но и в контексте сравнения с LSTM.

Но, видимо, ChatGPT не уловил эти тонкости исторического контекста и поэтому в его понимании и LSTM, и Trasnformer оба работают "лучше" в вакууме. И, чтобы устранить это противоречие (мол, как оба могут быть "лучше" друг друга одновременно?), бедняга начал думать, что "long sequences" и "large sequences" - это какие-то разные вещи и начал делать потуги доказать это мне. В то же время, длины его собственного контекста в разговоре, видимо, не хватало для того, чтобы мои ответы оставались в его "памяти" достаточно долго, чтобы разобраться в вопросе.

Мне теперь стало интересно, какие вообще можно придумать подходы для того, чтобы языковая модель начала понимать исторический контекст утверждений и не запутываться из-за непонимания контекста, как произошло в этой ситуации. Наверняка люди, которые профессионально занимаются предобучением подобных моделей, уже что-то пытались придумывать на этот счет...



#генерация