본문 바로가기
[코드스테이츠] AI부트캠프2기/Section 1

[AI부트캠프 2기] - 6~7일차 (feat. 코드스테이츠)

by xper100 2021. 3. 12.

Hypothesis Test (2021/3/11 ~ 12)

학습목표

  1. t-test 및 다른 가설검정
  2. Type of Error
  3. Chi-square test의 목적과 사용예시
  4. 모수통계와 비모수통계의 차이

t-검정(t-test)

T-검정은 모집단의 특성인 분산 및 표준편차를 추정하기 위해서 쓰이는 검정방식으로 표본으로 추정된 분산이나 표준편차를 통해서 두 모집단들의 평균의 차이를 검정한다. 집단의 수가 3개 이상인 경우에는 분산분석(ANOVA)를 사용하여 검정한다.

 

t-test의 조건

1)종속변수가 양적 변수일 때
2)모집단의 분산이나 표준편차를 알지 못할 때
3)모집단의 분포가 정규분포일 때

 

T-검정의 유형에 따른 분석방법

1. 단일표본 T-검정(One sample T-test)

모집단에서의 표본이 하나일 때, 모집단과 표본집단의 평균차가 통계적으로 유의미한지 검증하는 방법.

 

2. 두 표본 T-검정(Two sample T-test) 

두 표본집단을 한 모집단에서 종속적이며 독립적인 관계로 추출하여 비교함으로서 유사성을 검증하는 방법. 즉, 두 집단의 평균차이가 0인지 검증하는 방식이다.

 

3. 대응표본 T-검정(Paired T-test) 

같은 집단을 사용하여 실험 이전과 이후를 테스트할 경우에 쓰인다. 즉, 한 객체당 실험 이전/이후의 데이터를 각 1개씩 가지고 있는 경우로서 쌍을 이룬 두변수간의 차이가 0인지를 검정하는 방법이다.

 

검정하기 위한 가설설정

1)독립성: 독립변수의 그룹 군은 서로 독립적이여야 한다.

2)정규성: 독립변수에 따른 종속변수는 정규분포를 만족해야한다.
3)등분산성: 독립변수에 따른 종속변수 분포의 분산은 각 군마다 동일하다.

 

 

★분석 순서 및 주의사항★

1) 독립성 확인

  • 독립적이다 - Good
  • 독립적이지 않다 - 대응표본 T-검정을 쓰거나 Wilcoxon singed rank test를 적용

2) 정규성 확인

  • 정규성을 가진다. - Good
  • 정규성을 가지지 않는다. - Mann-Whitney test적용

3) 두 집단의 분산의 유사성을 검정 (등분산성 확인, var.test())

  • 분산이 다르다 - Welch의 t-test적용 (t.test())
  • 분산이 같다 - pooled variance를 이용한 t-test적용 (var.equal = True)

 

 


자유도(Degrees of Freedom)

모집단으로부터 추출된 표본을 통해서 모집단의 특성을 추정할 때, 정보를 줄 수 있는 독립적인 자료의 수를 말한다. 예를 들어서, Y = X + M + N의 식이 있다고 가정하자. Y = 10이였을때 추정하여 X = 5, N = 4라는 결론을 내렸을때, 남아있는 변수 M은 1로서 정해진 값으로 정보를 제공하는 독립적인 자료라고 할 수 없다. 따라서, 독립적으로 줄 수 있는 자료는 3-1 = 2개이며 이 예시는 M을 제외한 X와 N을 나타낸다. 

 


Chi-square test

 

수집한 데이터(data collected) ↔ 예측된 값(data predicted)을 비교하여 나타낸 것으로서 귀무가설(주장)과 예측사이의 차이점이 통계적으로 의미가 있는지를 보여주는 중요한 지표이다. Chi-square test는 검정한 값이 귀무가설을 두고 chi-square 값이 Chi distribution의 형태를 가졌을때만 유의하다. 

 

그렇다면 앞서 얻어진 Chi-squared값을 통해서 어떻게 유의미한지 판단 할 수 있을까?

 

아래의 테이블을 통해 Chi-squared value (critical value)와 자유도에 해당하는 위치를 찾은 후 컬럼에 적혀있는 alpha값을 찾아서 검증할 수 있다. 

 

예를 들어서 Chi-squared값이 1.8이고 자유도가 1이면 alphar값은 0.9와 0.1사이에 있다고 해석하면 된다. 그 이후 "alpha < 유의수준" 이라면, 귀무가설이 거짓일 확률이 크고, 반대로 "alpha > 유의수준"이면, 귀무가설이 참일 확률이 크다고 해석할 수 있다.

 


모수통계 VS 비모수통계

모수란?

모집단을 대표하는 값으로 모집단의 특성을 나타내는 수치이다. 즉, 모집단의 평균, 표준편차, 자유도 등 모수 측정을 통해서 알고자 하는 것으로 고정된 수치이며 절대 변하지 않는 수치이다. 하지만 모수를 정확히 알기는 힘들기 때문에 모수측정(Parameter estimation)을 통해서 추정하는 방식을 쓴다.

모수 통계 (Parametric statistics)

모집단이 특정 확률분포를 따른다는 전제하에 paramter estimation을 해야한다.

  • 쓰이는 경우
    • 등간척도(Interval scale) / 비율척도(Ratio scale)
    • 모집단의 확률분포를 구체적을 가정할 수 있어야 함
    • 모집단의 확률분포의 모수르 통계적으로 추론이 가능해야 함 - 중심극한정리 (Central Limit Theorem)

비모수 통계 (Non-parametric statistics / Distribution free method)

모집단이 특정 확률 분포 (normal과 같은)를 따른 다는 전제를 하지 않아서 parameter estimation을 하지 않아도 되는 방식

  • 쓰이는 경우
    • 명목척도(Nominal scale) / 서열척도(Ordinal scale)
    • 혹은 극단적 outlier가 있는 경우 매우 유효한 방식
  • 종류
    • Chisquare
    • Spearman correlation
    • Run test
    • Kolmogorov Smirnov
    • Mann-Whitney U
    • Wilcoxon
    • Kruskal-Wallis 등

 

 

어제와 오늘의 걸쳐서 가설검정의 기본을 다루었다. 대학 및 대학원에서도 공부한 내용이지만 아직도 헷갈리거나 정확히 이해하지 못했던 부분을 발견할 수 있었던 귀중한 시간이였다. 또한 디스코드를 통해서 다양한 의견과 이해의 방식 및 설명의 방식을 걸쳐 나를 스스로 재점검할 수 있는 시간이였다.

 

 

 

 

 

댓글


출처: https://privatedevelopnote.tistory.com/81 [개인노트]