BDA

[BDA] 6주차 수치형 vs 수치형

getfeelingsfrom 2025. 11. 23. 00:33

 

데이터 분석 시, 두 숫자형 변수 간의 관계가 있는지 확인하는 작업은 매우 중요합니다.

예를 들어, 기온이 높을수록 아이스크림 판매량이 증가하는지(X: 기온, Y: 판매량)와 같은 질문에 답하기 위함입니다.

이처럼 숫자형 변수가 존재할 때 비교하는 방법을 알아보도록 하겠습니다.


1.  산점도 (Scatter Plot)

두 변수 사이의 관계를 파악하는 가장 첫 번째 단계는 산점도(Scatter Plot)를 통한 시각화입니다.

산점도는 두 변수의 값을 좌표평면에 점으로 표시하여 관계의 형태를 직관적으로 보여줍니다.

이때 핵심은 점들이 얼마나 직선성(linearity)을 띠고 있는지를 파악하는 것입니다.

  • 양의 관계: 점들이 오른쪽 위 방향으로 모이는 형태 (한 변수가 증가할 때 다른 변수도 증가)
  • 음의 관계: 점들이 오른쪽 아래 방향으로 모이는 형태 (한 변수가 증가할 때 다른 변수는 감소)
  • 관계 없음: 점들이 랜덤하게 흩어져 직선성이 보이지 않는 형태
plt.scatter(air['Temp'], air['Ozone'])

 


2. 다중 변수 관계 시각화: pairplot

분석 대상 숫자형 변수가 여러 개일 때, 모든 변수 쌍의 산점도를 한 번에 확인하고 싶다면 sns.pairplot()을 사용합니다

이는 여러 변수 간의 초기 관계 탐색에 유용하지만, 변수의 개수가 많아질수록 그래프가 빽빽해져

해석이 어려워질 수 있다는 단점도 있습니다.

 

sns.pairplot(air)

 


3. 수치적 분석: 상관계수 r 과 유의성 검정 p-value

눈으로 보는 산점도가 애매할 때, 관계의 강도를 숫자로 측정하는 방법이 필요합니다.

3.1. 관계의 강도: 상관계수 r

상관계수(correlation coefficient) 는 두 변수 간의 선형 관계 강도와 방향을 측정하는 지표입니다 

  • 값의 범위: -1부터 1 사이.
  • 해석:
    • |r| (절댓값)이 1에 가까울수록 강한 선형 관계를 의미합니다.
    • + 부호는 양의 관계, -부호는 음의 관계를 나타냅니다.
  • 경험적 기준 (PDF p.12): 일반적으로 |r|>=0.5를 강한 관계로,
  • 0.2 <=|r| <0.5를 중간 관계로 판단하는 경우가 많습니다.

3.2. 상관계수의 유의성 검정 p-value

계산된 상관계수가 단순히 우연에 의해 발생한 것인지, 아니면 모집단에서도 의미 있는 관계인지 통계적으로 판단하는 과정입니다 

  • 판단 기준: $\text{p-value} < 0.05$ (유의수준 5% 기준)
  • 결과 해석: 이 조건을 만족해야 두 변수 사이에 통계적으로 유의미한 관계가 있다고 판단합니다.
import scipy.stats as spst
spst.pearsonr(air['Temp'], air['Ozone'])

 

 

결과 값은 상관계수, p-value 형태로 출력됩니다. 


4. 모든 숫자형 변수 간 상관관계 확인: df.corr ()

데이터프레임의 corr()메서드를 사용하면 모든 숫자형 변수 쌍의 상관계수를 매트릭스 형태로 한 번에 계산할 수 있습니다

이는 데이터 탐색 단계에서 변수 간의 관계를 신속하게 파악하는 데 가장 기본이 되는 도구입니다.


5. 상관계수의 한계

상관계수 r을 해석할 때 반드시 인지해야 할 중요한 한계점입니다

  • 직선 관계(선형)만 계산: 상관계수는 오직 두 변수의 관계가 얼마나 직선에 가까운지를 측정하는 지표입니다.
  • 비선형 관계 포착 불가: 관계의 형태가 곡선, U자형, 원형 등 비선형일 경우, 실제로는 강한 관계가 있음에도 불구하고 상관계수 r 값은 0에 가깝게 계산될 수 있습니다.
  • 상관계수가 $0$이라고 해서 두 변수 사이에 관계가 없다고 섣불리 단정하지말고 산점도를 통해 관계의 형태를 반드시 확인하는 과정이 필요하다는 걸 알 수 있었습니다

 

 


 

벌써 BDA라는 빅데이터 분석 학회에서 활동한지 6주(휴회기간 제외)가 넘어가고 있는데요 .

학회에서 활동하면서 좋은 강사님과 내용 덕분에 막연하게만 생각하던 데이터 분석 이라는 분야에서

점점 더 많은 활동을 하며 자리를 잡고 성장하고 싶다는 생각이 드는 요즘입니다.

앞으로도 지금처럼 주어진 환경에서 최선을 다해 노력하겠습니다!