Объясните, как учится Word2Vec? Какая функция потерь? Что максимизируется?



Word2Vec — это метод обучения векторных представлений слов. Он использует одну из двух архитектур: CBOW (Continuous Bag of Words) или Skip-gram.



▪️CBOW прогнозирует текущее слово на основе контекста (окружающих слов).

▪️Skip-gram наоборот использует текущее слово для предсказания контекста.



В процессе обучения Word2Vec использует нейронную сеть с одним скрытым слоем. Входные данные представляют собой слова в форме «one-hot encoded» векторов. Сеть обучается так, чтобы векторные представления слов в скрытом слое кодировали семантические и синтаксические характеристики слов.



Word2Vec может использовать несколько разных функций потерь, но наиболее распространёнными являются Negative Sampling Loss и Hierarchical Softmax. Цель обучения — максимизировать косинусное сходство между векторами слов, которые встречаются в похожих контекстах, и минимизировать его для слов, которые не встречаются вместе.



#NLP

#машинное_обучение