word embeddings



Дистрибутивная семантика. Идея: смысл каждого слова заключено в некотором его окружении



Компьютер не может работать с текстом. Надо перевести текст в вектор признаков. Чтобы получить значение слова, можно взять идею контекста этого слова.



Существуют разные модели дистрибутивной семантики:



Context type (связанные и не связанные слова)



Context window



Учитываем характеристики энтропии или ещё какой-то информации, которая позволит взвесить слова



Снижение размерности словаря (матричное разложение)



Вещи, которые позволяют работать в этих моделях:



косинусный близость (получение угла между векторами)

Манхеттеневское расстояние или многие другие



Матрица совстречаемости



Симметричная матрица, которая даёт информацию о корпусе текста, но она получается очень большой, если корпус большой. Поэтому мы используем понижение размерности, которое сможет сделать матрицу меньше. Допустим SVD.



Идея: есть матрица, как будем раскладывать? – Сингулярное матричное раздражение. Позволяет разложить на 3 матрицы, одна имеет исходную ширину, другая исходную длину и маленькая матрица, которая позволяет получить эти данные