word embeddings
Дистрибутивная семантика. Идея: смысл каждого слова заключено в некотором его окружении
Компьютер не может работать с текстом. Надо перевести текст в вектор признаков. Чтобы получить значение слова, можно взять идею контекста этого слова.
Существуют разные модели дистрибутивной семантики:
Симметричная матрица, которая даёт информацию о корпусе текста, но она получается очень большой, если корпус большой. Поэтому мы используем понижение размерности, которое сможет сделать матрицу меньше. Допустим SVD.
Идея: есть матрица, как будем раскладывать? – Сингулярное матричное раздражение. Позволяет разложить на 3 матрицы, одна имеет исходную ширину, другая исходную длину и маленькая матрица, которая позволяет получить эти данные
Дистрибутивная семантика. Идея: смысл каждого слова заключено в некотором его окружении
Компьютер не может работать с текстом. Надо перевести текст в вектор признаков. Чтобы получить значение слова, можно взять идею контекста этого слова.
Существуют разные модели дистрибутивной семантики:
Context type (связанные и не связанные слова)
Context window
Учитываем характеристики энтропии или ещё какой-то информации, которая позволит взвесить слова
Снижение размерности словаря (матричное разложение)
Вещи, которые позволяют работать в этих моделях:
•
косинусный близость (получение угла между векторами)•
Манхеттеневское расстояние или многие другие
Матрица совстречаемостиСимметричная матрица, которая даёт информацию о корпусе текста, но она получается очень большой, если корпус большой. Поэтому мы используем понижение размерности, которое сможет сделать матрицу меньше. Допустим SVD.
Идея: есть матрица, как будем раскладывать? – Сингулярное матричное раздражение. Позволяет разложить на 3 матрицы, одна имеет исходную ширину, другая исходную длину и маленькая матрица, которая позволяет получить эти данные