
정규성이 따를 때 포본이 포함되어있다고 가정한 모집단의 평균은 0이다 라는게 가설검정
가설 : 모집단의 모수에 가설을 세우는 거임, 표본 값에 대한 가설을 세우는게 아니다
=> 모평균은 0, 모분산은 1이다 라고 가정해서 증명하거라 ~~
중심극한정리
표본평균의 평균
𝐸(𝑋ˉ)=𝜇
여기서 𝑋ˉ 는
→ 표본평균들의 평균 (기댓값)
→ 분포의 중심(기댓값)
의미:
- 표본을 무수히 많이 뽑아 평균을 내면
- 그 평균들의 중심은 **모집단 평균 𝜇에 위치
표본평균의 표준편차 (표준오차)

- 모집단의 표준편차: σ
- 표본 크기: n
- 의미:
- 표본 크기가 커질수록
- 표본평균의 변동성은 감소
- → 평균값이 μ 근처에 더 촘촘히 모임
이 값을 표본평균의 표준오차(Standard Error)


ex> A 고등학교의 B반 학생의 국어 점수가 평균 75점 , 표준편차 5점인 정규 분포로 나타났다.
이 경우에 어느학생의 점수가 70점~ 80점 사이일 확률은?


해당 그래프 전체 넓이 = 1

신뢰도 99프로라면 ? => 3 편차 범위 : 60점부터 90점까지일거얌 ~
확률표본
: 표본들의 통계량들이 등장하는 확률 분포도를 이용해 모수를 추정할 수 있다.
아래 그래프들은 X축의 확률 변수들만 변화한다고 생각하면 된다


이 식을 사용할 수 있는 경우는 모분산을 알고 있다라는 가정이 필요하다
- 모집단 전체를 모르는데
- 모평균도 모르는데
- 모분산을 어떻게 알아 !!
-> t - value가 등장
T- 분포
표본 평균이 가지고 있는 데이터를 보여주는거구나


- t분포는 이 자유도가 커질수록 표준정규분포에 가까워진다.
- 표본 x1 , …, xn 에서 계산한 표본 평균을 표본 표준편차로 정규화한 값을 t 통계량
- 확률변수 X가 표준정규분포 N(0,1)을 따르고, 확률변수 Y가 자유도 n인 카이제곱 분포를 따르면서, X와 Y가 서로 확률적으로 독립일 때,
- T = X / (√(Y/n)) 로 정의되는 확률변수는 자유도 n인 t분포, 즉 t(n)을 따른다.
특징
- t분포는 표준정규분포처럼 0을 중심으로 종형의 모습을 가진 대칭 분포이다.
t분포의 꼬리는 표준정규분포보다 두껍다(fat tail) - t분포는 자유도 n에 따라 모습이 변하는데, 자유도 n이 커짐에 따라 표준정규분포 N(0,1)에 수렴
- * n이 증가함에 따라 분포가 표준정규분포에 수렴하는 것은 중심극한정리에 의한 것은 아님에 유의(limiting distribution
- 표본 평균, 표본 분산으로 정의되는 확률변수이기 때문에 표본의 수가 많아질수록 ‘중심극한정리‘에 의해 결국 정규분포에 수렴한다.
가설검정
가설 : 모집단의 모수에 가설을 세우는 거임, 표본 값에 대한 가설을 세우는게 아니다
=> 모평균( 𝜇 )은 0, 모분산( σ ^2)은 1이다 라고 가정해서 증명하거라 ~~
가설은 모수에다가 거는데 그 가설에는
| 귀무가설 H0 | 대립가설 H1 |
|
|
가설 검정 방법

- 귀무가설(H0)를 명확하게 명시한 후,
- 검정통계량을 이용해 p-value(귀무가설이 옳다는 전제하에 통계량보다 크거나 작은값이 나올 확률)를 계산한다.
- p-value 값이 작으면 작을수록 귀무가설을 만족하는 집단으로 부터 이와 같은 통계량(측정된) 값이 나올 확률이 없다는 의미이므로,
- 귀무가설이 잘못된 것이라고 판단한다.

1. 가설 설정
귀무가설
𝐻0: 𝜇= 115
→ 양치기 개의 심장 박동수의 모평균은 115이다
대립가설 (양측검정)
𝐻1: 𝜇≠115
오른쪽인지 왼쪽인지 사전에 방향을 모를 때
“115와 다르다”를 주장할 때
2. 반측 검정 설명
\
단측(반측) 검정:
오른쪽만: 𝜇>115
왼쪽만: 𝜇<115
방향이 명확할 때만 사용
" 이 표본이 ‘모평균이 115라는 가정 하에서’ 나올 수 있는 표본인가를 확인하는 것"
t.test(x, y = NULL,
alternative = c("two.sided", "less", "greater"),
mu = 0, paired = FALSE, var.equal = FALSE,
conf.level = 0.95, ...)
| x |
|
| y |
|
| alternative 가설의 형태(대립가설 방향) |
![]() |
| mu = 0 귀무가설에서 가정하는 모평균 값 |
|
| paired = FALSE |
|
| var.equal = FALSE |
|
#H0 : 양치기 개의 심장 박동수의 평균 115
#H1: 양측 검정(오른쪽/왼쪽 끝 어딘지는 모르겠지만, 가운데에 못들어왔다는 의미) = 115가 아니다
#반만 보는거는 -> 반측 검정
#내가 보고 있는 표본이 평균을 따라가고 있는가를 확인하고 있는건가
heart<-c(93, 109, 110, 89, 112, 117 ) #리스트와 비슷 (타입 단 1개)
t.test(heart, mu=115) #모집단의 평균(115)에 대해 나올 수 있는지 확인해달라는 의미

- 귀무가설이 맞다고 판단한다.
- 그 이유는 표본값이 93~116 범위, 즉 신뢰수준 95% 구간 안에 위치하기 때문이다.
- 이는 관측된 표본이 귀무가설이 참일 때 충분히 나올 수 있는 값임을 의미한다.
- 따라서 귀무가설을 기각하지 않고 채택한다.
- 즉, 해당 데이터는 양치기 개 집단의 심장 박동수 데이터로 보는 것이 타당하다.
p-value 해석 문장

- p-value 값이 정규분포의 중심부(비극단 영역)에 위치한다.
- p-value = 0.0816 :
귀무가설 H0: μ=11이 참일 때, 지금 관측된 t값(±2.1753) 이상으로 극단적인 값이 나올 확률 - 이는 해당 표본이 귀무가설 하에서 우연히 관측될 가능성이 충분히 크다는 뜻이다.
- 따라서 이 데이터를 귀무가설과 다른 집단의 데이터라고 주장하기에는 근거가 부족하다.
=> p-value가 충분히 크고, 표본이 신뢰구간 내에 있으므로 귀무가설을 기각할 이유가 없으며,
해당 표본은 양치기 개 집단에서 나왔다고 판단한다.


문제 !

#귀무가설 : 내가 속한 뮤 = 5.2 -> 표준화 : 0
#귀무가설에 속하지 않는 표본임을 증명해서 연구가설이 맞음을 보이고 싶어서
getwd()
setwd("C:\\Users\\user\\Desktop\\Rwork")
#연속형 데이터가 아닐 수도 있으니까 데이터 프레임으로 받아오자
df<-read.csv("one_sample.csv", header=TRUE)
head(df)
str(df)

NA가 있으니까 결측치 제거 필요하겠다고 생각 가능 -> 데이터 값 구체적으로 봐보자
x<-df$time
head(x)
#결측치가 30프로가 넘어가면 대체하는 방법 , 20프로 이하면 없애도 ㄱㅊ?
summary(x)
mean(x)


결측치가 있어서 평균 계산 실패 => 따라서 결측치 제거 필요
mean(x, na.rm=T)
x1<-na.omit(x)

#h0: 정규성을 따른다(귀무가설) => p-value값이 높게 나와야됨(정규성을 따라야하니까)
shapiro.test(x1)
hist(x1)



qq-plot을 통해 정규성을 따르고 있는지에 대해 확인할 수 있다.=> t-test해도 되는지 확인하기 위해서
#귀무가설 h0: x1이 속한 모집단의 모평균=5.2(표준화)
#t분포를 따르는지 확인해봐라
t.test(x1, mu=5.2)

귀무가설을 선택하지 않아야 됨 -> 대립가설 선택해야 됨
대립 가설 : 모평균은 5.2가 아니다 (오른쪽/왼쪽 중 어느 쪽에 데이터가 있는지 모름 )
#귀무가설 h0: x1이 속한 모집단의 모평균=5.2(표준화)
#대립가설 h1: x1이 속한 모집단의 모평균<5.2
t.test(x1, mu=5.2, alter=c("less"))

p-value가 0.9999로 크기 때문에 귀무가설 기각
#귀무가설 h0: x1이 속한 모집단의 모평균=5.2(표준화)
#대립가설 h1: x1이 속한 모집단의 모평균>5.2
t.test(x1, mu=5.2, alter=c("greater"))

p-value 0.00007...로 귀무가설 기각하지 않음
따라서 모집단의 모평균이 5.2보다 크다

'LG DX DATA SCHOOL' 카테고리의 다른 글
| 01/08 가설 검정 (0) | 2026.01.08 |
|---|---|
| 01/07 확률 분포 (t- 검정 vs 카이제곱 검정 ) (0) | 2026.01.07 |
| 01/05 통계 분석의 이해 (1) | 2026.01.05 |
| 12/31 데이터 시각화 라이브러리 (0) | 2025.12.31 |
| 12/30 기술 통계학 + R (0) | 2025.12.30 |
