1. 자연어 처리 개요

(1) 자연어처리 개요

(2) Trends of NLP

2. Bag of Words

(1) Bag of Words Representations

Untitled

단어 집합 안의 각 단어에 one-hot encoding을 수행해 one-hot vector로 만든다. one-hot vector는 해당 단어가 존재하면 1, 아니면 0으로 표현하며 각 단어의 one-hot vector는 단어 집합의 크기와 동일한 차원을 가진다. 위 예시에서는 ****vocab에 단어 8개가 존재하기 때문에 각 단어는 8차원 one-hot vector가 된다. 모든 단어간의 거리는 $\sqrt2$, 코사인 유사도는 0으로 동일하다. 단어 집합 안의 단어들은 categorical variable(범주형 변수)로 볼 수 있다.