컴퓨터를 통해 텍스트 분석을 수행하기 위해서는 문장, 단어를 컴퓨터가 연산 가능한 형태로 변환는 임베딩이 요구된다. Word2Vec(텍스트 임베딩)는 주변 단어를 이용하여 대상 단어를 예측하는 CBOW (Continuous Bag-of-Word)와 대상 단어로 주변 단어를 예측하는 Skip-gram를 지원하며, 단어의 의미와 문장의 맥락을 고려하여 단어를 벡터로 표현한다.
→ 자연어 평가 기반 음식점 특징 추출 기법으로 자연어 문장으로 된 음식점 평가 데이터에서 특징을 추출하여 유사그룹을 생성 (User1의 리뷰데이터의 특징과 이웃 User들의 리뷰데이터 특징을 추출하여 유사 그룹을 생성)
k-Means 알고리즘은 주어진 n개의 데이터를 k개로 분류하는 알고리즘이다. 원하는 목표치에 이를 때까지 계산을 반복하여 각 분류 간의 거리 차이를 최소화한다. k-means는 비교적 간단하며 빠르고 대용량 데이터에도 잘 작동한다. 하지만 클러스터의 개수(k)를 지정해야만 하며 이에 따라 도출되는 결과의활용 방안 및 성능 편차가 크다.
→ K-means 기반의 평가 점수 유사그룹 생성 기법으로 사용자들의 평가 점수를 그룹화 하여 유사한 평가를 받은 그룹을 생성 (User1이 남긴 리뷰의 평점 점수와 유사한 다른 User들이 남긴 평점 점수로 그룹을 생성)