데이터 분석 시, 두 숫자형 변수 간의 관계가 있는지 확인하는 작업은 매우 중요합니다.
예를 들어, 기온이 높을수록 아이스크림 판매량이 증가하는지(X: 기온, Y: 판매량)와 같은 질문에 답하기 위함입니다.
이처럼 숫자형 변수가 존재할 때 비교하는 방법을 알아보도록 하겠습니다.
1. 산점도 (Scatter Plot)
두 변수 사이의 관계를 파악하는 가장 첫 번째 단계는 산점도(Scatter Plot)를 통한 시각화입니다.
산점도는 두 변수의 값을 좌표평면에 점으로 표시하여 관계의 형태를 직관적으로 보여줍니다.
이때 핵심은 점들이 얼마나 직선성(linearity)을 띠고 있는지를 파악하는 것입니다.
- 양의 관계: 점들이 오른쪽 위 방향으로 모이는 형태 (한 변수가 증가할 때 다른 변수도 증가)
- 음의 관계: 점들이 오른쪽 아래 방향으로 모이는 형태 (한 변수가 증가할 때 다른 변수는 감소)
- 관계 없음: 점들이 랜덤하게 흩어져 직선성이 보이지 않는 형태
plt.scatter(air['Temp'], air['Ozone'])
2. 다중 변수 관계 시각화: pairplot
분석 대상 숫자형 변수가 여러 개일 때, 모든 변수 쌍의 산점도를 한 번에 확인하고 싶다면 sns.pairplot()을 사용합니다
이는 여러 변수 간의 초기 관계 탐색에 유용하지만, 변수의 개수가 많아질수록 그래프가 빽빽해져
해석이 어려워질 수 있다는 단점도 있습니다.
sns.pairplot(air)
3. 수치적 분석: 상관계수 r 과 유의성 검정 p-value
눈으로 보는 산점도가 애매할 때, 관계의 강도를 숫자로 측정하는 방법이 필요합니다.
3.1. 관계의 강도: 상관계수 r
상관계수(correlation coefficient) 는 두 변수 간의 선형 관계 강도와 방향을 측정하는 지표입니다
- 값의 범위: -1부터 1 사이.
- 해석:
- |r| (절댓값)이 1에 가까울수록 강한 선형 관계를 의미합니다.
- + 부호는 양의 관계, -부호는 음의 관계를 나타냅니다.
- 경험적 기준 (PDF p.12): 일반적으로 |r|>=0.5를 강한 관계로,
- 0.2 <=|r| <0.5를 중간 관계로 판단하는 경우가 많습니다.
3.2. 상관계수의 유의성 검정 p-value
계산된 상관계수가 단순히 우연에 의해 발생한 것인지, 아니면 모집단에서도 의미 있는 관계인지 통계적으로 판단하는 과정입니다
- 판단 기준: $\text{p-value} < 0.05$ (유의수준 5% 기준)
- 결과 해석: 이 조건을 만족해야 두 변수 사이에 통계적으로 유의미한 관계가 있다고 판단합니다.
import scipy.stats as spst
spst.pearsonr(air['Temp'], air['Ozone'])
결과 값은 상관계수, p-value 형태로 출력됩니다.
4. 모든 숫자형 변수 간 상관관계 확인: df.corr ()
데이터프레임의 corr()메서드를 사용하면 모든 숫자형 변수 쌍의 상관계수를 매트릭스 형태로 한 번에 계산할 수 있습니다
이는 데이터 탐색 단계에서 변수 간의 관계를 신속하게 파악하는 데 가장 기본이 되는 도구입니다.
5. 상관계수의 한계
상관계수 r을 해석할 때 반드시 인지해야 할 중요한 한계점입니다
- 직선 관계(선형)만 계산: 상관계수는 오직 두 변수의 관계가 얼마나 직선에 가까운지를 측정하는 지표입니다.
- 비선형 관계 포착 불가: 관계의 형태가 곡선, U자형, 원형 등 비선형일 경우, 실제로는 강한 관계가 있음에도 불구하고 상관계수 r 값은 0에 가깝게 계산될 수 있습니다.
- 상관계수가 $0$이라고 해서 두 변수 사이에 관계가 없다고 섣불리 단정하지말고 산점도를 통해 관계의 형태를 반드시 확인하는 과정이 필요하다는 걸 알 수 있었습니다
벌써 BDA라는 빅데이터 분석 학회에서 활동한지 6주(휴회기간 제외)가 넘어가고 있는데요 .
학회에서 활동하면서 좋은 강사님과 내용 덕분에 막연하게만 생각하던 데이터 분석 이라는 분야에서
점점 더 많은 활동을 하며 자리를 잡고 성장하고 싶다는 생각이 드는 요즘입니다.
앞으로도 지금처럼 주어진 환경에서 최선을 다해 노력하겠습니다!
'BDA' 카테고리의 다른 글
| [BDA] 9주차 : 이변량 분석(수치형 vs 범주) (0) | 2026.01.15 |
|---|---|
| [BDA] 7주차 이변량 분석2 범주형 vs 범주형 (0) | 2025.12.01 |
| [BDA] 5주차 단변량 분석 범주형 (0) | 2025.11.06 |
| [BDA] 4주차 단변량 분석 (1) | 2025.10.13 |
| [BDA] 3주차 데이터 시각화 (0) | 2025.10.02 |