LG DX DATA SCHOOL

0129 목요일 추천시스템

getfeelingsfrom 2026. 1. 30. 08:46

추천시스템

  1. 머신러닝 기반
    1. 콘텐츠 기반 ⇒ 아이템 특성 정보 꼭 필요

          2. 협업 필터링 (사용자들의 행동 패턴을 기반으로) ⇒ 아이템에 대한 특성 정보 몰라도 됨

KNN 협업 필터링 : 사용자의 과거 행동 이력을 기반으로 유사한 성향의 이웃을 찾아 추천하는 방식

  • 비슷한 애들끼리 몰려있다는 것이 가설
  • 거리가 멀면 가중치 값을 낮춤 (영향력을 낮춤)
  • 가까운 거리에 있는거라면 하나라도 있으면 가중치를 줘서

잠재요인 기반 협업 필터링 : 사용자- 아이템 평점 매트리스 속에 숨어있는 잠재요인을 추출해 추천 예측을 할 수 있게 하는 기법

  • 평균을 0으로 만들면 ⇒ 벡터의 내적 = 공분산
    • 공분산은 평균 제거 o, 1/(n-1) 스케일 있음
    • 평균 제거 ( 중심화) → 그 벡터로 코사인 계산
    • 평균을 제거한 벡터에서 코사인 유사도= 상관계수
      • 상관계수 : [-1,1] / 단위 없음 / 방향 + 강도

내적
→ (평균 제거) 공분산
→ (표준편차로 정규화) 상관계수 r
−1 ~ 1 사이에서 선형 상관관계 판단

  • 행렬 곱 ⇒ 양적 선형 관계다 ⇒두 벡터의 내적 값이 양의 값이 나와있다.
  • 빠르게 연산하기 위해서

  • (mxk)*(kxn)⇒ mxn : 두개가 행렬의 가장 근본적인 분해 요소
  • 장점 : nan 값이 있어도 추천 가능
  • 단점 : 원본 행렬이 무조건 존재해야 됨
  • 논리적 사고를 충분하게 할 수 있도록 ⇒ 기준치 유지
  • 축을 바꾸면 관점 바꾸는 것

행렬분해? 요인분석?

  • k개 라는 제한 조건이 걸림
  • 개성이라는 노이즈가 없어지고 보편적 특징만 남는다는 이야기
  • 가장 지배적인 특징만 k개 남는다
  • “ 쪼개면 근본이 된다 “

PCA

  • 분산이 최대가 되는 방향 벡터를 찾음 ⇒ 그 축으로 데이터를 투영 ⇒ 새로운 성향의 특성을 찾아냄
    • 분산 큰 방향? : 분산 = 정보량
      • 분산이 크다 → 데이터가 많이 퍼져 있다
      • 많이 퍼져 있다 → 관측값을 잘 구분할 수 있다
      • 정보를 많이 담고 있다고 가정
  • 변환을 하면서도 내적은 유지해야 됨 ⇒ 관점은 유지해야되니까?

c. 하이브리드 방식 : 협업 + 콘텐츠

  1. 지식 기반 방식 : 전문 지식 내용을 규칙화 (구조화)
  2. 딥러닝 기반
    1. MLP
    2. RNN
    3. GraphNN (GNN)

'LG DX DATA SCHOOL' 카테고리의 다른 글

02/03 화 02/05 목요일 SVM  (0) 2026.02.09
0130 인공신경망  (0) 2026.01.30
01/27 NLP  (0) 2026.01.27
01/26 DBSCAN  (0) 2026.01.27
0123 군집분석  (0) 2026.01.23