참고 자료

USCF vs IBCF

ML 기반 CF 방법론

DL 기반 CF 방법론

성능 평가 방법

Feature

피드백 설계

CF 협업 필터링

1. 텍스트 분석 기법

컴퓨터를 통해 텍스트 분석을 수행하기 위해서는 문장, 단어를 컴퓨터가 연산 가능한 형태로 변환는 임베딩이 요구된다. Word2Vec(텍스트 임베딩)는 주변 단어를 이용하여 대상 단어를 예측하는 CBOW (Continuous Bag-of-Word)와 대상 단어로 주변 단어를 예측하는 Skip-gram를 지원하며, 단어의 의미와 문장의 맥락을 고려하여 단어를 벡터로 표현한다.

→ 자연어 평가 기반 음식점 특징 추출 기법으로 자연어 문장으로 된 음식점 평가 데이터에서 특징을 추출하여 유사그룹을 생성 (User1의 리뷰데이터의 특징과 이웃 User들의 리뷰데이터 특징을 추출하여 유사 그룹을 생성)

2. K-means 알고리즘

k-Means 알고리즘은 주어진 n개의 데이터를 k개로 분류하는 알고리즘이다. 원하는 목표치에 이를 때까지 계산을 반복하여 각 분류 간의 거리 차이를 최소화한다. k-means는 비교적 간단하며 빠르고 대용량 데이터에도 잘 작동한다. 하지만 클러스터의 개수(k)를 지정해야만 하며 이에 따라 도출되는 결과의활용 방안 및 성능 편차가 크다.

→ K-means 기반의 평가 점수 유사그룹 생성 기법으로 사용자들의 평가 점수를 그룹화 하여 유사한 평가를 받은 그룹을 생성 (User1이 남긴 리뷰의 평점 점수와 유사한 다른 User들이 남긴 평점 점수로 그룹을 생성)

Step 1-8.