Mashkka про Data Science

Рефлексия по поводу того, что считать критерием обладания интеллектом и возможностью его различить нашла свое отражение в работах Стевана Харнада. Как сторонник того, что для моделирования интеллекта нужен embodiment, и потому расширил ТТ до

🔹 Тотального теста Тьюринга (Total Turing Test, TTT) (Harnad, 1991). ТТТ требует , чтобы все ответы машины, в том числе невербальные, принимались во внимание. Имитировать нужно и жесты, и голос, и мимику, и т.д.

🔹 Тотального тотального теста Тьюринга (Total Total Turing Test, TTTT) (Harnad, 1998). Харнад пошел дальше и решил попросить тот максимум, который в теории может попросить ученый: нейромолекулярную неразличимость от человеческого мозга. ‘[TTTT] is as much as a scientist can ask, for the empirical story ends there’

Еще несколько методологических улучшений ТТ получил в 90х:

🔹 Тест Кугеля (Kugel, 1990) — играем в игру в имитацию, но участникам не сообщается, какой отличительный признак оценивает судья.

- Инвертированный ТТ (Inverted Turing Test, ITT) (Watt, 1996) — тест на наивную психологию в форме диалога. , the consistency of the author's "cognitive profile"

🔹 Truly Total Turing Test (TRTTT) (Schweizer, 1998) (это уже тролллинг очень высокого уровня) TRTTT подразумевает, что мы приписываем способность к интеллекту на основе биологического вида. Так давайте же примем это и поставим критерий, что для неразличимости нужно, чтобы другой вид прошел эволюционно и научился самообучаться и решать задачи — тогда его можно будет считать обладающим интеллектом.

К другим вариациям теста можно отнести:

🔹 Схема Винограда (Winograd, 1972) — текстовый тест с задачками на логику и знания. Содержит текстовые вопросы, содержащие неоднозначную формулировку. Правильный ответ можно дать, если правильно понять неоднозначность: “Если бы у Ивана был осел, он бы его бил." Кто кого бил?

🔹 Minimum intelligent signal test (MIST) (McKinstry, 1997) — вопросно-ответный тест, в котором на вопросы можно отвечать только “да” / “нет”: в результате имеем понятную прозрачную метрику качества диалога.

🔹 Тест Тьюринга со специалистом (Subject-matter expert Turing test) — тест на глубокие предметные знания. Тест отличает систему от эксперта, опираясь на число правильных ответов (McCorduck, 2004);

🔹 Тест Эберта — тест на юмор. Тест включает в себя еще и синтез речи: реплики и их синтез должны быть настолько хороши, чтобы уметь рассмешить судей шуткой (Pasternack, 2011).

При всем этом многообразии модификаций, запущенных Харнадом, Харнад все еще остается автором цитаты, которую я очень люблю:

Если вы рассуждаете о том, что может или не может делать модель или симуляция – сначала запустите ее.

If you want to talk about what a model or a simulation can or cannot do, first get it to run.

(Harnad, 1989)

Этого всего, в целом, нам хватало до появления больших языковых моделей (LLMs). Но теперь...