LG DX DATA SCHOOL

0130 인공신경망

getfeelingsfrom 2026. 1. 30. 12:05

인공신경망

  • 인간의 뇌를 기반으로 한 추론 모델
  • 뉴런은 기본적인 정보 처리 단위

퍼셉트론에서 딥러닝까지

뉴런의 온·오프 모델 → 퍼셉트론(학습 도입) → XOR 문제로 단층의 한계 인식 → 다층 신경망 필요 → 오차역전파로 다층 학습 가능 → 활성화 함수·초기화 기법 개선 → GPU와 데이터 증가 → 딥러닝

단층 퍼셉트론

  • 중간층(hidden layer)이 없는 신경망 모델
    • 입력층 → 출력층
    • 은닉층 없음
    • z=wTx+b
    • y=f(z)
  • 출력층이 핵인 셈
    • 결정 경계는 출력층 활성화 함수가 전부 결정
    • 학습도 결국 출력 오차 기반으로만 진행
  • 결과가 0또는 1 ⇒ 명목형 데이터로 갈 수 있는 분리형 ⇒ 로지스틱 회귀
    • 출력이 확률(0~1)
    • threshold(보통 0.5)로 이진 분류
    • 명목형(label)로 해석 가능
    • 로지스틱 회귀 = 시그모이드 퍼셉트론
  • sigmoid 사용 시: 이진 분류 → 로지스틱 회귀
  • softmax 사용 시: 다중 분류 → 소프트맥스 회귀
    • 소프트맥스 함수 : 모든 확률 값의 합은 1

입력(x0, x1, x2) →

→ 가중치(w0, w1, w2) 곱해서 합산

→ 시그모이드 ⇒ 0,1 사이로 결과 나옴 → 임계값을 기준으로 0 또는 1로 분류

다층 퍼셉트론

 

  • 다층 퍼셉트론은 단층 퍼셉트론으로 해결할 수 없는 비선형 분리 문제(XOR 등)를 해결 가능
  • 순전파(feedforward)
    • 입력층에서 출력층으로 신호가 한 방향으로 전달되는 과정
    • 각 층의 출력= 다음 층의 입력
  • 역전파(backpropagation)
    • 출력층에서 발생한 오차를 입력층 방향으로 전달
    • 미분을 통해 각 가중치를 갱신
  • 기울기 소실 문제: 층이 깊어질수록 기울기가 0에 가까워져 앞쪽 층의 학습이 어려워지는 현상

로지스틱과 시그모이드 = 역함수 관계

  • 로짓함수 : 이 사건이 일어날 가능성을 점수로 나타내면?
    • logit(p)=log(p/1-p)
    • 입력: 확률 p(0~1)
    • 출력: 실수 전체 범위 (−∞,∞)
    • 확률을 로그 오즈(log-odds) 로 변환
    • 선형 모델이 다루기 쉬운 형태
    • 확률을 점수(score) 로 바꾼 것
  • 시그모이드 : 이 점수를 다시 확률로 바꾸면
    • σ(z)=1/ (1+e^−z)
    • 입력: 실수 점수
    • 출력: 확률 (0~1)
    • 점수를 확률로 압축
    • 이진 분류에서 출력층에 사용

역전파

역전파는 입력 x₀가 출력 y에 미치는 전체 영향을 모든 가중치와 활성화 함수를 따라

체인룰로 미분하여 계산하는 과정

= 출력에서 발생한 오차를 입력 방향으로 거꾸로 전달하며 각 가중치의 책임을 계산

 

체인룰 : 경로를 쪼개서 계산

입력이 분모로 들어가서 시작

  • 우리가 실제로 계산하는 것 : ∂L/ ∂w
  • 한 번에 못 구함 → 쪼갬
  • ∂L/ ∂w = ∂L/∂y ⋅∂y/ ∂z ⋅∂z/∂w
  • 이 가중치가 손실에 미친 전체 영향 = 중간 영향들의 곱
  • 에러에 대한 영향력 발휘

국소적 영향력 :

  • 어떤 변수(입력, 가중치, 노드)가 아주 조금 변했을 때 바로 다음 단계의 출력이 얼마나 변하는가
  • 이 지점에서의 즉각적인 영향
  • 가중치의 국소적 영향
    • ∂z/∂w =x
    • 이 가중치 w 가 조금 변하면
    • 바로 다음 값 z가 얼마나 변하나
  • 활성화 함수의 국소적 영향
    • ∂a/∂z=f′(z)
    • 현재 위치에서
    • 활성화 함수가 얼마나 민감한지
  • 국소적 vs 전체 영향력
국소적 영향력 전체영향력
한단계 입력 → 출력 전체 경로
바로 옆 연산만 봄 여러 국소적 영향의 곱
• w→ z
• z→ a
∂y/ ∂x0 = ∂y/∂a ⋅∂a/ ∂z ⋅∂z/∂x0

 

 

기울기 소실 (vanishing gradient)

: 역전파 과정에서 기울기가 점점 0에 가까워져 앞쪽(초기) 층의 가중치가 거의 업데이트되지 않는 현상

  • 기울기는 곱의 형태로 전달됨
  • 각 항이 1보다 작으면 깊어질수록 → 0으로 수렴
  • depth가 깊어지면 거의 대부분 일어남
  • 활성화 함수 개선 : ReLU

'LG DX DATA SCHOOL' 카테고리의 다른 글

02/09 mnlist  (1) 2026.02.13
02/03 화 02/05 목요일 SVM  (0) 2026.02.09
0129 목요일 추천시스템  (0) 2026.01.30
01/27 NLP  (0) 2026.01.27
01/26 DBSCAN  (0) 2026.01.27