BDA 3

[BDA] 4주차 단변량 분석

이번 시간에는 숫자형 변수에 해당하는 단변량 분석에 대해 공부했습니다.단변량 분석이란 한 변수의 분포를 분석하는 과정을 말하는데요.숫자형 변수를 중심으로 기초 통계량, 대표값, 시각화 방법을 알아보겠습니다. 1️⃣ 숫자형 변수란?측정 가능한 값을 의미합니다. 숫자형 변수를 정리하는 방법으로는 숫자로 요약하기 : 정보의 대푯값 => 기초 통계량구간을 나누고 빈도수 계산 => 도수 분포표 가 있습니다. 2️⃣ 정보의 대표값 1. 평균 (mean): 가장 기본적인 대표값입니다.np.mean(titanic['Fare'])titanic['Fare'].mean() 2. 중앙값(median) : 자료의 사실상 가운데에 오는 값입니다.np.median(titanic['Fare'])titanic['Fare']...

BDA 2025.10.13

[BDA] 3주차 데이터 시각화

이번 주차에는 파이썬의 대표적인 시각화 패키지인 matplotlib와 seaborn을 이용해 실습을 진행했습니다. 시각화 패키지는 비즈니스 인사이트를 파악하기 위해 사용하는 것인데요. 차트를 해석하며 단순히 수치를 보는 것이 아니라, 비즈니스적 의미를 발견할 수 있습니다. 하지만 시각화 단계에서 몇 가지 한계가 있는데요 그래프와 통계량은 원본 데이터가 아닌 요약된 정보(원본)가 표현된다요약의 관점에 따라 해석의 결과가 달라질 수 있다 요약 과정에서 정보의 손실이 발생할 수 있다 📍파이썬 시각화 패키지matplotlib(매트플롯립) : 가장 기본적인 시각화 라이브러리seaborn : matplotlib 위에서 사용됨import pandas as pdimport numpy as np# 시각화 라이브러..

BDA 2025.10.02

[BDA] 2주차 파이썬 기초, 판다스 복습

이번 주 BDA학회(빅데이터 분석 학회)에서는 파이썬 기본 자료형 중에서 가장 자주 사용되는 리스트와 딕셔너리를 공부했습니다. 또한 Pandas 라이브러리의 데이터 프레임을 중심으로 실습을 진행했는데요. CSV 파일을 불러와서 탐색, 집계, 조회에 대한 기능을 활용해보았습니다. 아래에 배운 걸 정리해보도록 하겠습니다 . ✅ 리스트 (List)리스트는 대괄호 []로 선언하며, 여러 데이터를 순서대로 담을 수 있습니다. list_a = [1, 2, 3, 4, 5] # 리스트 생성print(list_a) # 조회-> 코드 셀 안에서 화면의 결과를 출력하기 위해 사용 display(list_a) # print 대신 display() 사용 가능🔹 range 함수range(시작값, 끝값, 증가값) 형태로 연속된..

BDA 2025.09.29