Confidence Interval (2021/3/15)
이번시간에는 기초적이지만 통계량을 추정할 때 가장 중요한 요소들을 다루었다.
ANOVA (ANalysis Of VAriance)
ANOVA란? - 분산분석이라고 하며 2개이상의 다중그룹의 유사성을 검증하고자 하는 방식이다.
t-test와는 다르게 2개의 그룹끼리 묶어서 비교하는 방식이 아닌 전 그룹을 동시에 비교하여 모든 그룹이 유사성을 가지고 있는지를 표현할 수 있다.
F-statistics? - 모분산을 추정하기 위한 통계량으로 2개이상의 그룹을 비교할 때 쓰인다. 일반적으로 그룹간의 평균치들이 서로 유사성을 띄는지를 알아보기 위한 통계량으로 ANOVA 검정에 주요한 지표로 쓰인다. F-statistics가 크면 클수록 귀무가설을 기각할 확률이 커진다.
Bonferoni....
점추정(Point estimate) vs 구간추정(Interval estimate)
추정치(Estimator)란...
모집단의 특성들 즉, 모수들을 정확하게 알 수 없으나 통계적으로 추정하여 수치로 나타낸 것이다. 그렇다면 점추정과 구간 추정에는 어떤것이 다를까?
추정한 모수의 형태가 "값"으로 나타내었는지 "구간"으로 나타내었는지의 차이이다.
예를 들어서 모수중 하나인 모평균을 추정하고 싶다.
점추정은 "모평균은 10일 것이다."라고 나타내는 것이지만 구간 추정은 "모평균은 최소 8과 12사이에 존재할 것이다."라고 나타내는 것이다.
여기서! 가장 주요한 차이가 있다. 모수는 정확히 알아낼 수 없는 값임에도 점추정은 특정한 값으로 나타내는 한 오차가 분명히 존재하며 신뢰도에도 문제가 발생한다. 반면에, 구간추정은 추정치의 최대 및 최소값을 포함하여 모수가 존재할 것이라고 나타내므로 점추정을 보완하여 나타낼 수 있다.
신뢰구간(Confidence Interval)
신뢰구간이란 관찰한 것 또는 수집한 데이터를 바탕으로 모수를 추정한 값들의 범위로서 어느정도의 불확실성을 내제한 구간이다.
구간추정을 하기위해서는 신뢰수준(confidence level)을 사용한다. 신뢰수준이란 추정한 구간안에 모수가 존재할 확률을 나타낸것이다.
신뢰수준은 100 * (1- alpha)%로 계산되며 alpha는 허용한 오차수준을 나타내며 유의수준이라고도 한다.
예를 들어 신뢰수준이 5%라고 가정한다면, 신뢰구간은 95%를 가지게 된다. 즉, 100개의 구간중 95개가 모수를 포함할수 있다."를 확률적으로 나타낸 것이다.
중심극한정리(Central Limit Theorem, CLT)
어떠한 형태로 데이터가 분산이 되어있든지간에, 샘플들의 평균값들은 정상분포형태를 가진다.
Even if a dataset is not normally distributed, clusters of the mean of samples are normally distributed. It doesn't matter which type of distribution you start, distribution of sample means will be normally distributed.
'[코드스테이츠] AI부트캠프2기 > Section 1' 카테고리의 다른 글
[AI부트캠프 2기] - 10일차 (feat. 코드스테이츠) (0) | 2021.03.17 |
---|---|
[AI부트캠프 2기] - 9일차 (feat. 코드스테이츠) (0) | 2021.03.17 |
[AI부트캠프 2기] - 6~7일차 (feat. 코드스테이츠) (0) | 2021.03.12 |
[AI부트캠프 2기] - 5일차 (feat. 코드스테이츠) (0) | 2021.03.11 |
[AI부트캠프 2기] - 4일차 (feat. 코드스테이츠) (0) | 2021.03.09 |
댓글