Антропоморфизация больших языковых моделей



Не очень люблю говорить в компаниях про LLMs (Large Language Models: GPT, ChatGPT, LaMDA ...), потому что почти сразу тезис "скоро нейронные сети обретут сознание и всех поработят" становится основным. Я в таких случаях, кратко рассказываю как устроены модели. О том, что генеративные модели по принципу работают как автодополнение на телефоне. О том, что сети показали много текстов и во время обучения задача была в предсказании следующего слова при условии предыдущих. И о том, что обретение сознания не совсем верный тезис в подобном контексте.



Однако, в медиа постоянно выходят статьи с заголовками типа:

1. The Google engineer who thinks the company’s AI has come to life

2. 'I want to be alive': Has Microsoft's AI chatbot become sentient?



Давно искал что-то осмысленное про то, как люди наделяют человеческими свойствами языковые модели. И вот мне на глаза попалась статья Talking About Large Language Models от профессора Murray Shanahan из Imperial College



Ключевые тезисы такие:



1. Основной принцип работы LLM: генерация статистически вероятных продолжений последовательностей слов.

2. Многие задачи, для решения которых вроде бы нужен разум человека, можно свести к задаче предсказания следующего токена (слова).

3. Люди часто прибегают к антропормфизации (очеловечиванию) разных объектов для упрощения сложных процессов. (“мой телефон думает, что мы в другом месте.”) Это называется Intentional Stance.

4. Исследователи в своих статьях активно используют слова "знает", "верит", "думает" по отношению к LLM, подразумевая конкретные процессы вычислений.

5. Иногда видя слова "знает", "верит", "думает" люди могут начать ложно ожидать большего поведения, чем такие модели имеют.



В статье мне понравилось, что последовательно разбираются аргументы почему эти слова не очень корректно использовать в привычном их значении даже если модели могут:

• отвечать на вопросы которых не было в трейне

• ходить в другие системы

• отвечать по данным другой модальности (например, изобржаниям)

• выполнять задачи в реальном мире с помощью манипуляторов



Кому лень читать всю статью, сделал более подробный пересказ.

https://telegra.ph/Konspekt-stati-Talking-About-Large-Language-Models-02-19