이번 시간에는 숫자형 변수에 해당하는 단변량 분석에 대해 공부했습니다.
단변량 분석이란 한 변수의 분포를 분석하는 과정을 말하는데요.
숫자형 변수를 중심으로
기초 통계량, 대표값, 시각화 방법을 알아보겠습니다.
1️⃣ 숫자형 변수란?
측정 가능한 값을 의미합니다.
숫자형 변수를 정리하는 방법으로는
- 숫자로 요약하기 : 정보의 대푯값 => 기초 통계량
- 구간을 나누고 빈도수 계산 => 도수 분포표
가 있습니다.
2️⃣ 정보의 대표값
1. 평균 (mean)
: 가장 기본적인 대표값입니다.
np.mean(titanic['Fare'])
titanic['Fare'].mean()
np.median(titanic['Fare'])
titanic['Fare'].median()
titanic['Pclass'].mode()
4. 사분위수(quantile)
: 데이터를 4등분으로 나눈 값으로
25%, 50%, 75%에 해당하는 지점이 Q1, Q2(중앙값), Q3입니다.
titanic['Fare'].describe()

3️⃣ 기초통계량
describe() 함수를 통해 평균, 표준편차, 사분위수 등을 확인할 수 있습니다.
titanic.describe()
air.describe()


4️⃣ 시각화
(1) 히스토그램 (Histogram)
데이터를 여러 구간(bin)으로 나눠 각 구간의 빈도를 막대그래프로 나타낸 그래프입니다.
plt.hist(titanic.Fare, bins=30, edgecolor='gray')
plt.xlabel('Fare')
plt.ylabel('Frequency')
plt.show()
sns.histplot(x='Fare', data=titanic, bins=20)
plt.show()
bin의 개수를 다르게 설정하면,
데이터의 분포가 어떻게 다르게 세분화되는지 확인할 수 있습니다.
sns.histplot(x= 'Age', data = titanic, bins = 16)
plt.show()
sns.histplot(x= 'Age', data = titanic, bins = 32)
plt.show()


(2) 밀도함수 그래프 (kde plot)
히스토그램은 구간(bin)의 너비를 어떻게 잡는지에 따라 전혀 다른 모양이 될 수 있다는 단점을 가지고 있습니다.
밀도함수 그래프는 막대의 너비를 가정하지 않고 모든 점에서 데이터의 밀도를 추청하는 커널 밀도 추정 방식을 사용하여 이러한 단점을 해결한 그래프입니다.
막대 그래프가 아닌 곡선의 형태로 분포를 표현하며,
면적 전체가 1이며, 확률의 의미로도 해석할 수 있습니다.
sns.kdeplot(x='Fare', data = titanic)
plt.show() # 오른쪽으로 치우쳤다는 말은 오른쪽으로 꼬리가 늘어져있다는 뜻

(3) 박스플롯 (Box Plot)
데이터의 분포와 이상치를 한눈에 보여줍니다.
주의해야할 점은 값에 NaN이 있으면 그래프가 그려지지 않습니다 .
temp = titanic.loc[titanic['Age'].notnull()]
plt.boxplot(temp['Age'])
plt.grid()
plt.show()
sns.boxplot(x='Age', data=titanic)
plt.show()
plt.boxplot(temp['Age'], vert = False) #false = 횡으로
plt.grid()
plt.show()


4) 시계열 데이터 시각화
시간에 따른 변화는 **라인 차트(line chart)**로 표현합니다
air['Date'] = pd.to_datetime(air['Date'])
plt.plot('Date', 'Ozone', 'g-', data=air, label='Ozone')
plt.plot('Date', 'Temp', 'r-', data=air, label='Temp')
plt.xlabel('Date')
plt.legend()
plt.show()

🌱 마무리하며 ..
지금 일반학회원을 상시 모집하고 있어요 !
관심있으신 분들은 아래 내용 확인해보시면 될 것. ㅏㅌ아요
정규반 수강이 없어도, BDA의 다양한 콘텐츠와 활동에 참여할 수 있는 ✨유연한 멤버십✨
💡 이런 분들께 추천드려요!
- 스터디, 조별활동만 참여하고 싶으신 분
- 방학 기간 부트캠프 참여를 원하시는 분
- 정규반 수업보다 콘텐츠 위주로 듣고 싶은 분
- 현직자 강연/커리어 인사이트가 궁금하신 분 🙌
일반 학회원이 되면 누릴 수 있는 혜택
✔️ 원데이 클래스
✔️ 현직자 강연 (BDA JOB, BDA WAVE, BDA 페스티벌 등)
✔️ 스터디 & 공모전
✔️ 커피챗 (실무자와의 커리어 대화)
✔️ 부트캠프 등
📌 지금 QR코드로 간편 지원 가능! 👉 우수 일반학회원에게는 특별 혜택도 준비되어 있어요 🎁 https://www.instagram.com/p/DO51_7PEtN2/?igsh=NDM5ODczOTRmYzFx


'BDA' 카테고리의 다른 글
| [BDA] 6주차 수치형 vs 수치형 (0) | 2025.11.23 |
|---|---|
| [BDA] 5주차 단변량 분석 범주형 (0) | 2025.11.06 |
| [BDA] 3주차 데이터 시각화 (0) | 2025.10.02 |
| [BDA] 2주차 파이썬 기초, 판다스 복습 (0) | 2025.09.29 |
| [BDA] BDA를 시작하며 .. /1주차 수업 리뷰 (0) | 2025.09.19 |