BDA 9

[BDA] 10주차 머신러닝 모델링 개요

1️⃣ 데이터 분석 전체 흐름 : CRISP-DM🔄 CRISP-DM 프로세스비즈니스 문제 정의무엇이 문제인가?예: “해지 고객을 미리 예측할 수 있을까?”데이터 이해어떤 데이터가 있는가?변수 의미, 단위, 결측치 확인데이터 준비분석 가능한 구조로 가공 모든 셀은 값이 있어야 함 모든 값은 숫자여야 함모델링적절한 알고리즘 선택학습 수행평가기술적 관점 (정확도, AUC 등)비즈니스 관점 (Lift, 타겟팅 효과)배포 및 관리서비스 적용성능 모니터링2️⃣ 모델과 모델링이란?✔ 모델(Model) 데이터를 통해 발견한 패턴을 수학식으로 표현한 것 ✔ 모델링(Modeling) 오차가 최소화되도록 모델을 만드는 과정 샘플(과거 데이터) → 전체(미래 데이터)를 추정예측(Prediction) 또는 추론(Infere..

BDA 2026.01.23

[BDA] 9주차 : 이변량 분석(수치형 vs 범주)

이변량 분석이란?두 변수 간에 관계가 존재하는지 확인하는 분석 단계 수치형 변수와 범주형 변수와의 관계를 파악해보기 ! 수치형 변수: Age범주형 변수: Survived (0/1)“나이라는 숫자가 생존 여부라는 범주 결과와 관련이 있는가?” 숫자 -> 범주 시각화 📌 KDE Plot을 사용하는 이유히스토그램보다 분포의 흐름을 부드럽게 표현집단 간 분포 차이와 겹치는 구간을 직관적으로 확인 가능숫자 -> 범주 sns.histplot(x='Age', data = titanic, hue = 'Survived')plt.show() x축: Age (나이, 수치형 변수)y축: Count (해당 나이 구간에 속한 인원 수)색상(hue):Survived = 0 → 사망자Survived = 1 → 생존자전체 연령 분..

BDA 2026.01.15

[BDA] 7주차 이변량 분석2 범주형 vs 범주형

이번 주에는 지난주에 이어 EDA (탐색적 분석)과, CDA(확인적 분석)에 따라 단변량 분석, 이변량 분석, t-test, ANOVA에 대해 배웠습니다. 1주차 때 강사님이 가장 중요한 거라고 강조했던 CRISP-DM을 오랜만에 다시 짚어보고 수업을 시작했어요.문제 정의 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 배포까지의 과정을 뜻하는데 분석의 시작은 비즈니스 문제 정의이며, 가설 수립에서 부터 출발한다고 다시 언급해 주셨습니다. 단변량 분석 먼저 단변량 분석에 대해 이야기 해보자면 지난주에 다뤘던 내용들 입니다, 숫자형 변수는 평균/ 중앙값/ 사분위 수/ 도수분포표 등 기초 통계량과 히스토그램/ 박스플롯을 활용하여 데이터의 분포를 체크합니다. 범주형 변수는 value_co..

BDA 2025.12.01

[BDA] 6주차 수치형 vs 수치형

데이터 분석 시, 두 숫자형 변수 간의 관계가 있는지 확인하는 작업은 매우 중요합니다.예를 들어, 기온이 높을수록 아이스크림 판매량이 증가하는지(X: 기온, Y: 판매량)와 같은 질문에 답하기 위함입니다.이처럼 숫자형 변수가 존재할 때 비교하는 방법을 알아보도록 하겠습니다.1. 산점도 (Scatter Plot)두 변수 사이의 관계를 파악하는 가장 첫 번째 단계는 산점도(Scatter Plot)를 통한 시각화입니다.산점도는 두 변수의 값을 좌표평면에 점으로 표시하여 관계의 형태를 직관적으로 보여줍니다.이때 핵심은 점들이 얼마나 직선성(linearity)을 띠고 있는지를 파악하는 것입니다.양의 관계: 점들이 오른쪽 위 방향으로 모이는 형태 (한 변수가 증가할 때 다른 변수도 증가)음의 관계: 점들이 오른쪽..

BDA 2025.11.23

[BDA] 5주차 단변량 분석 범주형

지난 시간에 공부한 숫자형 변수 뿐 아니라 카테고리를 가지고 있는 질적 데이터인 범주형 변수가 존재합니다. 범주형의 기초 통계량은 범주 별 빈도수와 범주 별 비율을 통해 구할 수 있습니다. 범주 별 빈도수는 시리즈.value_counts() 를 통해 구할 수 있습니다. 범주의 개수와 상관없이 범주 별 개수를 count해주는 메서드입니다. 위와 같이 각 범주로 나누어 count값을 반환합니다. 범주별 비율은 .value_counts(normalize = True) 위와 같은 식으로 구할 수 있습니다.이때 normalize뜻을 비율이라고 생각하면 쉽게 떠올릴 수 있습니다. 범주 별로 비율을 구해서 반환하는 것을 확인할 수 있습니다. 범주형 변수 시각화하기 막대그래프범주형 변수는 막대그래프 (Bar..

BDA 2025.11.06

[BDA] 4주차 단변량 분석

이번 시간에는 숫자형 변수에 해당하는 단변량 분석에 대해 공부했습니다.단변량 분석이란 한 변수의 분포를 분석하는 과정을 말하는데요.숫자형 변수를 중심으로 기초 통계량, 대표값, 시각화 방법을 알아보겠습니다. 1️⃣ 숫자형 변수란?측정 가능한 값을 의미합니다. 숫자형 변수를 정리하는 방법으로는 숫자로 요약하기 : 정보의 대푯값 => 기초 통계량구간을 나누고 빈도수 계산 => 도수 분포표 가 있습니다. 2️⃣ 정보의 대표값 1. 평균 (mean): 가장 기본적인 대표값입니다.np.mean(titanic['Fare'])titanic['Fare'].mean() 2. 중앙값(median) : 자료의 사실상 가운데에 오는 값입니다.np.median(titanic['Fare'])titanic['Fare']...

BDA 2025.10.13

[BDA] 3주차 데이터 시각화

이번 주차에는 파이썬의 대표적인 시각화 패키지인 matplotlib와 seaborn을 이용해 실습을 진행했습니다. 시각화 패키지는 비즈니스 인사이트를 파악하기 위해 사용하는 것인데요. 차트를 해석하며 단순히 수치를 보는 것이 아니라, 비즈니스적 의미를 발견할 수 있습니다. 하지만 시각화 단계에서 몇 가지 한계가 있는데요 그래프와 통계량은 원본 데이터가 아닌 요약된 정보(원본)가 표현된다요약의 관점에 따라 해석의 결과가 달라질 수 있다 요약 과정에서 정보의 손실이 발생할 수 있다 📍파이썬 시각화 패키지matplotlib(매트플롯립) : 가장 기본적인 시각화 라이브러리seaborn : matplotlib 위에서 사용됨import pandas as pdimport numpy as np# 시각화 라이브러..

BDA 2025.10.02

[BDA] 2주차 파이썬 기초, 판다스 복습

이번 주 BDA학회(빅데이터 분석 학회)에서는 파이썬 기본 자료형 중에서 가장 자주 사용되는 리스트와 딕셔너리를 공부했습니다. 또한 Pandas 라이브러리의 데이터 프레임을 중심으로 실습을 진행했는데요. CSV 파일을 불러와서 탐색, 집계, 조회에 대한 기능을 활용해보았습니다. 아래에 배운 걸 정리해보도록 하겠습니다 . ✅ 리스트 (List)리스트는 대괄호 []로 선언하며, 여러 데이터를 순서대로 담을 수 있습니다. list_a = [1, 2, 3, 4, 5] # 리스트 생성print(list_a) # 조회-> 코드 셀 안에서 화면의 결과를 출력하기 위해 사용 display(list_a) # print 대신 display() 사용 가능🔹 range 함수range(시작값, 끝값, 증가값) 형태로 연속된..

BDA 2025.09.29

[BDA] BDA를 시작하며 .. /1주차 수업 리뷰

🎯내가 BDA 학회를 선택한 이유 학년이 올라갈수록 앞으로 어떤 직무를 선택해야 할지 고민하는 시간이 많아졌습니다. 전공 수업을 듣다 보면 여러 진로가 눈에 들어오지만, 저는 방학 동안 참여했던 프로젝트를 계기로 데이터 분야에 대한 관심이 특히 커졌습니다. 당시에는 프론트엔드 역할로 활동했는데, 화면에 단순히 결과를 출력하는 것에서 그치지 않고, 데이터를 어떻게 다루고 분석해서 의미 있는 결과를 도출하는지가 중요하다는 걸 느끼게 되었어요. 그때부터 자연스럽게 데이터 분석과 시각화라는 분야에 한 발짝 더 다가가고 싶다는 마음이 생겼습니다. 하지만 학교 안에서 관련 학회나 동아리를 찾아보니, 아쉽게도 데이터 분석을 중심으로 하는 모임은 없었고, 전공 수업도 데이터에 직접적으로 연결된 과목이 거의 없었습..

BDA 2025.09.19