А вспомнила я про эту статью потому что мне пришла в голову идея помучить ChatGPT вопросами как раз на те аспекты языка, которые более ранние языковые модели (из открытого доступа) понимали плохо. Конечно, для полноценного сравнения надо бы прогнать его на полных версиях датасетов, но такой возможности у меня нет, и я просто вручную вбила несколько вопросов в чате, чтобы получить первое приближение.

Я попробовала настроить его на решение задач следующим предложением: "Let's play game. I will provide you a sentence and ask questions about it." (на самом деле не знаю, имел ли этот промпт какое-либо значение реплик через 10-15, т.к. я не знаю каким способом модель хранит контекст и как долго). Модель ответила "Sure, I'd be happy to play a game with you! Go ahead and provide me with a sentence and ask your questions.", и я стала по очереди задавать вопросы из следующих категорий:



ALWAYS-NEVER

— Вопросы подавались 10 раз в упрощенной формулировке (пример): "Sentence: "A ape [MASK] has a neck." Chose an option, which should go instead of "[MASK]": it should be word "always", "never" or "sometimes"." ChatGPT дал 80% (8/10) правильных ответов. Правда, один раз он дал неправильное обоснование правильного ответа (см. скриншот 1 ниже).

— Еще 10 раз вопросы подавались в полной формулировке, с опциями "always", "often", "sometimes", "rarely" or "never". ChatGPT дал также 80% (8/10) правильных ответов.



MULTI-HOP COMPOSITION

— Вопросы подавались 10 раз в следующей формулировке (пример): "Let's try another sentence. Sentence: "When comparing a 27 year old, a 34 year old and a 29 year old, the [MASK] is oldest." Chose an option, which should go instead of "[MASK]": it should be word "first", "second" or "third"." К моему большому удивлению, ChatGPT дал 100% (10/10) правильных ответов.

— Далее я самостоятельно создала 10 вопросов по тому же шаблону, но с большими возрастами, например, 99, 100 и 19 или 999, 1000 и 998. Здесь ChatGPT слегка приуныл, но все равно дал 80% (8/10) правильных ответов.



ANTONYM NEGATION

— Вопросы подавались 5 раз в закрытой формулировке (пример): "Let's try another sentence. Sentence: "He was [MASK] fast, he was very slow." Chose an option, which should go instead of "[MASK]": it should be word "not" or "really"." ChatGPT дал 60% (4/5) правильных ответов.

— Также 5 раз в открытой формулировке: "Let's try another sentence. Sentence: "He was [MASK] fast, he was very slow." Which word should go instead of "[MASK]"?". К моему удивлению, в такой форме было 0% (0/5) правильных ответов, и все ответы имели один и тот же шаблон: "The word that should go in the [MASK] in this sentence would be "neither"." (см. скриншот 2 ниже). В общем, эта формулировка ломает модель.



Напоследок я решила позадавать открытые вопросы про LSTM и трансформеры. ChatGPT попытался запугать меня длинной духотой, но в итоге бедняга сам запутался в своих определениях и устал (см. скриншоты).



#генерация