01/16 사이킷런으로 시작하는 머신러닝

LG DX DATA SCHOOL

01/16 사이킷런으로 시작하는 머신러닝

getfeelingsfrom 2026. 1. 16. 14:57

p.91에서 시작

1. 분석 모델(Analysis Model)

목적: 과거 데이터 설명임
이미 관측된 데이터의 패턴, 관계, 원인 분석이 목표임
과거 데이터에 대한 적합도를 최대한 높이려는 성향이 있음
데이터에 너무 잘 맞으면 노이즈까지 학습하게 됨
결과적으로 과적합(Overfitting) 발생 위험 큼

2. 예측 모델(Predictive Model)

목적: 미래 데이터 예측임
과거 데이터를 그대로 설명하는 것이 목적 아님
앞으로 들어올 데이터에도 유지될 **공통된 특징(일반화)**을 학습해야 함
과거 데이터에만 최적화되면 예측 성능 급락함
따라서 항상 과적합을 경계해야 하는 모델임

3. 과적합(Overfitting)

모델이 학습 데이터에 과도하게 적합된 상태임
우연적 패턴, 노이즈까지 의미 있는 신호로 착각함
학습 데이터 성능 ↑
테스트 / 미래 데이터 성능 ↓

4. 전처리(Preprocessing)의 역할

과적합을 완전히 제거할 수는 없음
하지만 최소화는 가능함
그 출발점이 전처리 작업임
- 불필요한 변수 제거임
- 노이즈 감소임
- 분포 왜곡 완화임
- 결측치 처리로 데이터 일관성 확보임
- 변수 스케일 차이 보정임

분석 모델 → 설명 중심 → 과적합 위험 큼

예측 모델 → 일반화 중심 → 과적합 최소화가 핵심임

2.5과 데이터 전처리

1️⃣ 결손값의 개념

결손값 = NaN (Not a Number) 임
데이터 분석에서는 결손값이 존재할 수 있음
하지만 머신러닝 알고리즘에서는 그대로 사용 불가한 경우가 많음

2️⃣ Null 값에 대한 기본 원칙

Null 값은 허용되지 않음
따라서 반드시 고정된 다른 값으로 변환해야 함
Null 값을 그대로 두면 모델 학습 불가능하거나 오류 발생함

3️⃣ Null 값 처리 방법

① 결손값이 별로 없는 경우

평균값 / 중앙값 / 최빈값 등으로 대체 가능함
구현이 간단함
단점
- 실제 분포를 왜곡할 수 있음
- 예측 결과에 편향(Bias)이 생길 수 있음
- 따라서 신중하게 사용해야 함

② 결손값이 대부분인 경우

해당 피처 자체의 정보량이 매우 낮음
오히려 모델 성능을 떨어뜨릴 가능성 큼
피처 드롭(Drop)이 더 합리적임

4️⃣ “일정 수준”의 기준은 없음

결손 비율이 몇 % 이상이면 무조건 제거라는 절대적 기준은 없음
데이터의 의미, 분석 목적에 따라 판단해야 함
판단기준
- 주요 변량이면 어떻게든 살려야 함
- 중요하지 않으면 과감히 버려야 함

📌 사이킷런 머신러닝 알고리즘 입력 제약

1️⃣ 문자열 입력 불가

사이킷런의 머신러닝 알고리즘은
👉 문자열(String) 값을 입력으로 허용하지 않음
모든 입력 데이터는 숫자형(Numeric) 이어야 함

2️⃣ 문자열 → 숫자형 변환 필요

범주형 변수(문자열)는 반드시 변환해야 함

3️⃣ 명목형 변수 처리 방법

레이블 인코딩(Label Encoding)
- 각 범주를 숫자로 매핑함
- 예:
  - Male → 0
  - Female → 1
- 단점
  - 숫자 크기에 의미 없는 순서 관계가 생길 수 있음
원-핫 인코딩(One-Hot Encoding)
- 범주를 벡터 형태로 변환함
- 각 범주는 0/1로 표현됨
- 순서 의미가 없음

4️⃣ 문자열 처리 흐름 정리

문자열 → 수치화(Label Encoding 등)
수치화 → 벡터화(One-Hot Encoding 등)

=:> 문자열 → 수치화 → 벡터화(수치 + 의미 보존)

원핫 인코딩은 원핫인코더 클래스에서 변환이 가능하다

라벨인코더와 다르게 주의해야하는데 입력값으로 2차원 데이터가 필요하다는 원핫인코더를 이용해 변환한 값이 희소 행렬 형태 -> toarray()메서드를 이용해 밀집 행렬로 변혼해야한다 .

벡터화

📌 피처 스케일링

1️⃣ 피처 스케일링의 개념

피처 스케일링이란
👉 서로 다른 변수들의 값 범위를 일정한 수준으로 맞추는 작업임
변수마다 단위와 크기가 다르면
→ 모델 학습 시 특정 변수만 과도하게 영향력을 가질 수 있음
이를 방지하기 위해 스케일링 수행함

2️⃣ 표준화(Standardization)

각 피처를 평균 0, 분산 1을 가지도록 변환함
결과적으로 가우시안(정규) 분포 형태에 가깝게 만듦

✔ 변환 특징

값의 중심이 0임
음수, 양수 모두 존재함
반대 방향(마이너스 방향) 값도 자연스럽게 표현 가능함
기존 분포의 형태는 유지하면서 스케일만 조정하는 방식임

3️⃣ 정규화(Normalization)

서로 다른 피처들의 크기 자체를 통일하기 위한 변환임
주로 최소값과 최대값을 기준으로 범위를 맞춤

✔ 변환 특징

값의 범위가 보통 0~1 사이로 맞춰짐
각 값은 전체 범위 대비 어느 위치인지의 비율로 표현됨
분모에 전체 범위(사용량, 최대값 등)가 들어가므로
“전체 대비 1의 비율” 개념으로 이해하면 됨

4️⃣ 표준화 vs 정규화 차이 정리

구분	표준화	정규화
목적	분포 중심 맞춤	크기 통일
기준	평균, 분산	최소~최대
결과 분포	평균 0, 분산 1	0~1 범위
음수	가능	거의 없음

5️⃣ 스케일링 적용 시 주의점

Train / Test를 나눈 뒤 따로 스케일링하면 안 됨
Train 데이터 기준으로 스케일 파라미터를 학습하고
그 기준을 Test 데이터에 그대로 적용해야 함
test 데이터를 포함해 다시 계산하면 → 데이터 누수(Data Leakage) 발생함

6️⃣ 스케일링이 특히 중요한 모델

가중치(w)를 직접 계산하는 모델들임
SVM
인공신경망
딥러닝 모델
거리 계산, 기울기 기반 최적화를 사용함
스케일 차이가 크면 학습이 왜곡됨

Decision Tree (결정트리)

분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법으로 의사결정문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있다.

분석 과정

1. 성장 단계 : 최적의 분리규칙을 찾음

2. 가지치기(pruning) : 오차를 크게 할 위험이 높거나 불필요한 가지 제거

3. 타당성 평가 단계 : 이익도표, 위험도표, 시험 자료를 이용하여 의사결정나무 평가

4. 해석 및 예측 단계 : 나무 모형 해석 및 예측 모형을 설정 후 예측에 적용

최적의 분리 규칙 기준 : 최적 분할의 결정은 불순도 감소량을 가장 크게하는 분할

y값이 분류형일 때

회귀분석일 때 ==> 회귀 트리

'LG DX DATA SCHOOL' 카테고리의 다른 글

01/20 (1)	2026.01.21
01/19 결정트리부터 ... (1)	2026.01.19
01/14 (1)	2026.01.15
01/13 파이썬 머신러닝 시작 (0)	2026.01.13
01/12 회귀 분석 마무리 (0)	2026.01.12

현재글01/16 사이킷런으로 시작하는 머신러닝

할 수 있다 능 (能)

취업, Ȩ, 대학생활, BDA학회 #데이터분석 #대학생학회 #취업 #취업준비 #대외활동 #대학생활 #수업후기, BDA #BDA학회 #데이터분석 #학회 #데이터분석학회 #취업 #취업준비 #대외활동, 데이터분석학회, 대외활동, BDA, css, 학회, 취업준비, BDA학회, 데이터분석, 수업후기, html, 대학생학회,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

할 수 있다 능 (能)