추천시스템
- 머신러닝 기반
- 콘텐츠 기반 ⇒ 아이템 특성 정보 꼭 필요

2. 협업 필터링 (사용자들의 행동 패턴을 기반으로) ⇒ 아이템에 대한 특성 정보 몰라도 됨

KNN 협업 필터링 : 사용자의 과거 행동 이력을 기반으로 유사한 성향의 이웃을 찾아 추천하는 방식



- 비슷한 애들끼리 몰려있다는 것이 가설
- 거리가 멀면 가중치 값을 낮춤 (영향력을 낮춤)
- 가까운 거리에 있는거라면 하나라도 있으면 가중치를 줘서
잠재요인 기반 협업 필터링 : 사용자- 아이템 평점 매트리스 속에 숨어있는 잠재요인을 추출해 추천 예측을 할 수 있게 하는 기법


- 평균을 0으로 만들면 ⇒ 벡터의 내적 = 공분산
- 공분산은 평균 제거 o, 1/(n-1) 스케일 있음
- 평균 제거 ( 중심화) → 그 벡터로 코사인 계산
- 평균을 제거한 벡터에서 코사인 유사도= 상관계수
- 상관계수 : [-1,1] / 단위 없음 / 방향 + 강도



내적
→ (평균 제거) 공분산
→ (표준편차로 정규화) 상관계수 r
→ −1 ~ 1 사이에서 선형 상관관계 판단
- 행렬 곱 ⇒ 양적 선형 관계다 ⇒두 벡터의 내적 값이 양의 값이 나와있다.
- 빠르게 연산하기 위해서

- (mxk)*(kxn)⇒ mxn : 두개가 행렬의 가장 근본적인 분해 요소
- 장점 : nan 값이 있어도 추천 가능
- 단점 : 원본 행렬이 무조건 존재해야 됨
- 논리적 사고를 충분하게 할 수 있도록 ⇒ 기준치 유지
- 축을 바꾸면 관점 바꾸는 것

행렬분해? 요인분석?
- k개 라는 제한 조건이 걸림
- 개성이라는 노이즈가 없어지고 보편적 특징만 남는다는 이야기
- 가장 지배적인 특징만 k개 남는다
- “ 쪼개면 근본이 된다 “
PCA
- 분산이 최대가 되는 방향 벡터를 찾음 ⇒ 그 축으로 데이터를 투영 ⇒ 새로운 성향의 특성을 찾아냄
- 분산 큰 방향? : 분산 = 정보량
- 분산이 크다 → 데이터가 많이 퍼져 있다
- 많이 퍼져 있다 → 관측값을 잘 구분할 수 있다
- ⇒ 정보를 많이 담고 있다고 가정
- 분산 큰 방향? : 분산 = 정보량
- 변환을 하면서도 내적은 유지해야 됨 ⇒ 관점은 유지해야되니까?
c. 하이브리드 방식 : 협업 + 콘텐츠
- 지식 기반 방식 : 전문 지식 내용을 규칙화 (구조화)
- 딥러닝 기반
- MLP
- RNN
- GraphNN (GNN)
'LG DX DATA SCHOOL' 카테고리의 다른 글
| 02/03 화 02/05 목요일 SVM (0) | 2026.02.09 |
|---|---|
| 0130 인공신경망 (0) | 2026.01.30 |
| 01/27 NLP (0) | 2026.01.27 |
| 01/26 DBSCAN (0) | 2026.01.27 |
| 0123 군집분석 (0) | 2026.01.23 |