LG DX DATA SCHOOL

01/06 가설 검정 (정규 분포, t-분포)

getfeelingsfrom 2026. 1. 6. 16:26

 


정규성이 따를 때 포본이 포함되어있다고 가정한 모집단의 평균은 0이다 라는게 가설검정 

가설 : 모집단의 모수에 가설을 세우는 거임, 표본 값에 대한 가설을 세우는게 아니다

=> 모평균은 0, 모분산은 1이다 라고 가정해서 증명하거라 ~~ 

 

 

중심극한정리 

표본평균의 평균

𝐸(𝑋ˉ)=𝜇
여기서 𝑋ˉ 는
→ 표본평균들의 평균 (기댓값)
→   분포의 중심(기댓값)

의미:

  • 표본을 무수히 많이 뽑아 평균을 내면
  • 그 평균들의 중심은 **모집단 평균 𝜇에 위치

표본평균의 표준편차 (표준오차)

  • 모집단의 표준편차: σ
  • 표본 크기: n
  • 의미:
    • 표본 크기가 커질수록
    • 표본평균의 변동성은 감소
    • → 평균값이 μ 근처에 더 촘촘히 모임

이 값을 표본평균의 표준오차(Standard Error)

 

 



ex> A 고등학교의 B반 학생의 국어 점수가 평균 75점 , 표준편차 5점인 정규 분포로 나타났다. 
이 경우에 어느학생의 점수가 70점~ 80점 사이일 확률은?

해당 그래프 전체 넓이 = 1 


신뢰도 99프로라면 ? => 3 편차 범위 : 60점부터 90점까지일거얌 ~ 

 

 

 

확률표본 

: 표본들의 통계량들이 등장하는 확률 분포도를 이용해 모수를 추정할 수 있다. 

아래 그래프들은 X축의 확률 변수들만 변화한다고 생각하면 된다 

이 식을 사용할 수 있는 경우는 모분산을 알고 있다라는 가정이 필요하다

  • 모집단 전체를 모르는데
  • 모평균도 모르는데
  • 모분산을 어떻게 알아 !!

 

-> t - value가 등장

 

T- 분포

표본 평균이 가지고 있는 데이터를 보여주는거구나

 

  •  t분포는 이 자유도가 커질수록 표준정규분포에 가까워진다.
  •  표본 x1 , …, xn 에서 계산한 표본 평균을 표본 표준편차로 정규화한 값을 t 통계량
  •  확률변수 X가 표준정규분포 N(0,1)을 따르고, 확률변수 Y가 자유도 n인 카이제곱 분포를 따르면서, X와 Y가 서로 확률적으로 독립일 때,
  •  T = X / (√(Y/n)) 로 정의되는 확률변수는 자유도 n인 t분포, 즉 t(n)을 따른다.

특징

  • t분포는 표준정규분포처럼 0을 중심으로 종형의 모습을 가진 대칭 분포이다.
    t분포의 꼬리는 표준정규분포보다 두껍다(fat tail)
  • t분포는 자유도 n에 따라 모습이 변하는데, 자유도 n이 커짐에 따라 표준정규분포 N(0,1)에 수렴
  • * n이 증가함에 따라 분포가 표준정규분포에 수렴하는 것은 중심극한정리에 의한 것은 아님에 유의(limiting distribution
  • 표본 평균, 표본 분산으로 정의되는 확률변수이기 때문에 표본의 수가 많아질수록 ‘중심극한정리‘에 의해 결국 정규분포에 수렴한다.

 

가설검정

가설 : 모집단의 모수에 가설을 세우는 거임, 표본 값에 대한 가설을 세우는게 아니다

=> 모평균( 𝜇 )은 0, 모분산( σ ^2)은 1이다 라고 가정해서 증명하거라 ~~ 

 

가설은 모수에다가 거는데 그 가설에는 

귀무가설 H0 대립가설 H1​
  • “차이 없음”
  • “효과 없음”
  • “기존 주장”
  • 등호(=, ≥, ≤)를 포함
  • “차이 있음”
  • “효과 있음”
  • “새 주장”
  • 등호 없음

가설 검정 방법

  •  귀무가설(H0)를 명확하게 명시한 후,
  • 검정통계량을 이용해 p-value(귀무가설이 옳다는 전제하에 통계량보다 크거나 작은값이 나올 확률)를 계산한다.
  • p-value 값이 작으면 작을수록 귀무가설을 만족하는 집단으로 부터 이와 같은 통계량(측정된) 값이 나올 확률이 없다는 의미이므로,
  • 귀무가설이 잘못된 것이라고 판단한다.

1. 가설 설정 
귀무가설
𝐻0:  𝜇= 115
→ 양치기 개의 심장 박동수의 모평균은 115이다

대립가설 (양측검정)
𝐻1: 𝜇≠115
오른쪽인지 왼쪽인지 사전에 방향을 모를 때
“115와 다르다”를 주장할 때


2. 반측 검정 설명 

\
단측(반측) 검정:
오른쪽만: 𝜇>115
왼쪽만: 𝜇<115
방향이 명확할 때만 사용

" 이 표본이 ‘모평균이 115라는 가정 하에서’ 나올 수 있는 표본인가를 확인하는 것"

 

 

t.test(x, y = NULL,
       alternative = c("two.sided", "less", "greater"),
       mu = 0, paired = FALSE, var.equal = FALSE,
       conf.level = 0.95, ...)

 

x
  • 첫 번째 표본 데이터
  • 벡터 형태
  • 단일표본 t-검정에서는 검정 대상 표본
y
  • 두 번째 표본 데이터
  • NULL이면 단일표본 t-검정
  • y가 있으면 두 표본 t-검정
alternative
가설의 형태(대립가설 방향)





mu = 0
귀무가설에서 가정하는 모평균 값
    • 단일표본 t-검정일 때:
      H0 : μ = μ0
    • 두 표본 t-검정일 때:
      H0:μx−μy= μ0
paired = FALSE
  • 대응표본 여부
  • FALSE (기본값): 독립표본 t-검정
  • TRUE: 대응표본 t-검정
    (같은 대상의 전·후 비교, 쌍으로 묶인 데이터)
var.equal = FALSE
  • 분산 동일성 가정
  • FALSE (기본값):
     Welch t-test (분산 다르다고 가정)
  • TRUE:
     Student t-test (분산 동일 가정)
   
#H0 : 양치기 개의 심장 박동수의 평균 115
#H1: 양측 검정(오른쪽/왼쪽 끝 어딘지는 모르겠지만, 가운데에 못들어왔다는 의미) = 115가 아니다
#반만 보는거는 -> 반측 검정 
#내가 보고 있는 표본이 평균을 따라가고 있는가를 확인하고 있는건가 

heart<-c(93, 109, 110, 89, 112, 117 ) #리스트와 비슷 (타입 단 1개)
t.test(heart, mu=115) #모집단의 평균(115)에 대해 나올 수 있는지 확인해달라는 의미

 

 

  • 귀무가설이 맞다고 판단한다.
  • 그 이유는 표본값이 93~116 범위, 즉 신뢰수준 95% 구간 안에 위치하기 때문이다.
  • 이는 관측된 표본이 귀무가설이 참일 때 충분히 나올 수 있는 값임을 의미한다.
  • 따라서 귀무가설을 기각하지 않고 채택한다.
  • 즉, 해당 데이터는 양치기 개 집단의 심장 박동수 데이터로 보는 것이 타당하다.

 

p-value 해석 문장

 

  • p-value 값이 정규분포의 중심부(비극단 영역)에 위치한다.
  • p-value = 0.0816 :
    귀무가설 H0: μ=11이 참일 때, 지금 관측된 t값(±2.1753) 이상으로 극단적인 값이 나올 확률
  • 이는 해당 표본이 귀무가설 하에서 우연히 관측될 가능성이 충분히 크다는 뜻이다.
  • 따라서 이 데이터를 귀무가설과 다른 집단의 데이터라고 주장하기에는 근거가 부족하다.

=> p-value가 충분히 크고, 표본이 신뢰구간 내에 있으므로 귀무가설을 기각할 이유가 없으며,

해당 표본은 양치기 개 집단에서 나왔다고 판단한다.

 

 

 

문제 ! 

#귀무가설 : 내가 속한 뮤 = 5.2 -> 표준화 : 0
#귀무가설에 속하지 않는 표본임을 증명해서 연구가설이 맞음을 보이고 싶어서 

getwd()
setwd("C:\\Users\\user\\Desktop\\Rwork")
#연속형 데이터가 아닐 수도 있으니까 데이터 프레임으로 받아오자 
df<-read.csv("one_sample.csv", header=TRUE)
head(df)
str(df)

 

NA가 있으니까 결측치 제거 필요하겠다고 생각 가능 -> 데이터 값 구체적으로 봐보자 

x<-df$time
head(x)
#결측치가 30프로가 넘어가면 대체하는 방법 , 20프로 이하면 없애도 ㄱㅊ? 
summary(x)
mean(x)

 

결측치가 있어서 평균 계산 실패 => 따라서 결측치 제거 필요

 

mean(x, na.rm=T)
x1<-na.omit(x)

 

#h0: 정규성을 따른다(귀무가설) => p-value값이 높게 나와야됨(정규성을 따라야하니까)
shapiro.test(x1)
hist(x1)

qq-plot을 통해 정규성을 따르고 있는지에 대해 확인할 수 있다.=> t-test해도 되는지 확인하기 위해서 

 

#귀무가설 h0: x1이 속한 모집단의 모평균=5.2(표준화)
#t분포를 따르는지 확인해봐라 
t.test(x1, mu=5.2)

귀무가설을 선택하지 않아야 됨 -> 대립가설 선택해야 됨 

대립 가설 : 모평균은 5.2가 아니다 (오른쪽/왼쪽 중 어느 쪽에 데이터가 있는지 모름 ) 

 

#귀무가설 h0: x1이 속한 모집단의 모평균=5.2(표준화)
#대립가설 h1: x1이 속한 모집단의 모평균<5.2
t.test(x1, mu=5.2, alter=c("less"))

 

p-value가 0.9999로 크기 때문에 귀무가설 기각

#귀무가설 h0: x1이 속한 모집단의 모평균=5.2(표준화)
#대립가설 h1: x1이 속한 모집단의 모평균>5.2
t.test(x1, mu=5.2, alter=c("greater"))

 

 

p-value 0.00007...로 귀무가설 기각하지 않음 

따라서 모집단의 모평균이 5.2보다 크다

'LG DX DATA SCHOOL' 카테고리의 다른 글

01/08 가설 검정  (0) 2026.01.08
01/07 확률 분포 (t- 검정 vs 카이제곱 검정 )  (0) 2026.01.07
01/05 통계 분석의 이해  (1) 2026.01.05
12/31 데이터 시각화 라이브러리  (0) 2025.12.31
12/30 기술 통계학 + R  (0) 2025.12.30