Розовые слоны и красные деревья: цвета в языке и в реальной жизни



Системный блок писал про дистрибутивную семантику и раньше, а в этой статье речь будет идти о том, как с помощью нее можно сравнивать цвета в языке и в реальном мире.



Интерес к связи между языком и восприятием возник ещё в 1950-е годы, когда была сформулирована гипотеза Сепира-Уорфа: человеческое восприятие формируется под воздействием семантических и грамматических категорий языка. Цветовое поле предоставляет материал, который удобен для подтверждения или опровержения этой гипотезы. Чтобы выяснить, в каком отношении находятся цветовые характеристики и категории восприятия в языке и в реальном мире, было проведено несколько экспериментов.



В первом эксперименте сравниваются цветовые обозначения для понятий из разных категорий: животные, растения, одежда. Нас интересует, для каких категорий будет характерно большее цветовое разнообразие, а какие описываются меньшим количеством цветов.

Для описания животных или цветочных растений люди используют десятки оттенков, но обычно один из цветов доминирует. Розы скорее будут красными, васильки голубыми, львы жёлтыми. А для описания предметов одежды, тоже очень разных по цветовой гамме, доминантного цвета обычно нет.



Чтобы выяснить, для каких категорий характерно разнообразие, мы извлекаем вектора совместной встречаемости слов с цветовыми понятиями, а затем для каждого слова вычисляем дисперсию значений. Слова с высокой дисперсией (то есть большим разнообразием) относятся к категориям «животные» и «растения», как мы и предполагали. Слова с низкой дисперсией включают в себя черты внешности и абстрактные понятия.



Во втором эксперименте мы подсчитываем совместную встречаемость слова с цветами (сколько раз слово «слон» встречалось со словом «красный», «синий», «фиолетовый» и т.д.) и опускаем все остальные слова. Для 500 слов с наибольшей вариативностью цветов и 500 слов с наименьшей вариативностью (слова взяты из первого эксперимента) мы извлекаем ближайших семантических соседей в обоих дистрибутивных пространствах. 



Если соседи-слова в полном пространстве и во втором «цветовом» дистрибутивном пространстве совпадут, то это означает, что для данного конкретного слова цвет действительно очень важен.



Елизавета Кузьменко



https://sysblok.ru/nlp/rozovye-slony-i-krasnye-derevja-cveta-v-jazyke-i-v-realnoj-zhizni/