HAZEL

[Basic Statistics : CH 8 . 분산 분석] 분산 분석, 일원 분산분석, 이원 분산분석 본문

DATA ANALYSIS/Math

[Basic Statistics : CH 8 . 분산 분석] 분산 분석, 일원 분산분석, 이원 분산분석

Rmsid01 2020. 12. 7. 14:38

그동안, 정리한  [ 기초 통계 ] 내용 보러 가기 

더보기

CH8. 분산 분석

01 . 분산 분석

001. 분산분석 이란 ? ( ANalysis Of VAriance : ANOVA )

: 3개 이상의 집단에 대한 평균 차이를 검증하는 분석 방법

: 특성에 대한 산포의 제곱합을 요인별로 분해하는 것

: F분포를 이용함

 

** 2개 이상의 집단일 경우, 7장에서 살펴보았음. 

   3개 이상이 넘어가면, 7장의 방법은 불편하기 때문에, 분산분석을 이용하면 편함

 

002. 분산분석에서의 편차

분산분석에서는 중요한 개념이 < 편차 > 라는 개념이다.

 

1. 총 편차 

전체 집단 간의 평균과 특정한 점의 차이

 

2. 집단 간 편차 

: 해당하는 집단의 평균과 전체에 해당하는 평균의 차이

 

3. 집단 내 편차 

: 해당 집단내의 평균과 특정값에 대한 차이

분산 분서에서의 편차

- 집단 간의 분산이 크다라고 한다면? 집단 간의 평균 차이가 크다는 의미

- 집단 내의 분산이 작으면집단 간의 차이가 커짐.

003.  F : 편차의 비율을 가지고 확인하는 것 , 분산 비율

004.  분산 분석의 구분

1. 일원 분산분석 ( one - way ANOVA )

: 하나의 다른 척도를 가지고 보는 것을 일원 분산분석이라고 함.

 

2. 이원 분산분석 ( two -way ANOVA )

: 두 가지 요인을 기준으로 집단 간의 차이를 조사하는 것.

 

3. 다원 분산 분석 ( multi - way ANOVA )

: 세 가지 이상의 요인을 기준으로 집단 간의 차이를 조사하는 것

 

4. 다변량 분산분석 ( multi - variate ANOVA )

: 독립변수 1개 이상에 대해 종속변수 2개 이상으로 조사하는 것

분산분석
분산분석의 구분

 

004.  분산 분석의 가정

- 각 모집단은 정규 분포여야 하며, 집단 간 분산은 동일해야 한다.

  : 평균값이 다르다 하더라도, 겹치는 부분이 다르기 때문에, 분석하기 적합하지 않다.!

 

- 각 표본들은 독립적으로 추출되어야 한다.

 : 각 표본들이 독립적이어야 한다.

 : 즉, 각 표본끼리 영향을 주고받으면 안 된다.

 

- 각 표본의 크기는 적절해야 한다.

 : 통계 분석을 진행하기 위해서, 표본의 크기가 충분해야 한다. 


02. 일원 분산분석

001. 일원 분산 분석 ( one - way ANOVA )

: 하나의 다른 척도를 가지고 보는 것을 일원 분산분석이라고 함.

일원 분산 분석

 

002. 가설 수립

: 각 음료에 대한 매출의 차이가 있는지 유의 수준 0.05에서 알아보자!

: 조건 : 음료 A의 평균 : 2.857 , B의 평균 : 4.000, C에 대한 평균 : 3.444, 전체 평균 : 3.434

H0 = 음료에 따른 매출의 차이가 없다.

H1 = 음료에 따른 매출의 차이가 있다.

 

 

003. 편차

- 어떤 값을 비교할 때 가장 기본이 되는 값은 평균이다!

:  편차를 자유도로 나누면, 편차의 평균이 된다!

:  여기서! * 주의 * 편차는 각기 다른 자유도를 가진다.

 

1. SST = n - 1 

2. SSB = i - 1

3. SSW =  n - i

 

: 즉, 집단 간 / 내의 편차를 자유도로 나누면 분산이 되게 된다

: 이를 분산 분석이라고 한다.

004. 분산 비율 F

005. 일원 분산 분석표

일원 분산 분석표

- 5.664를 어떻게 해석하는가 ?

 : 음료 간의 매출이 차이가 있긴 한데,

  매출이 가장 높은 것과 작은 것의 차이를 비교했을 때, 5.664배의 매출의 차이가 난다.

006. F 분포도 & 가설 채택

F 분포도

- F분포표를 이용하여, 찾기 

 : 분자(분자(집단 간의 자유도) : 2 / 분모(집단내의 자유도) : 21에 해당하는 F분포표의 수치를 찾기

 

분산비율 F = 5.664 가 나왔으므로확률이 0.5 보다 작다는 것을 의미함.

  : 즉, 기각역에 해당되고귀무가설을 기각하고 대립 가설을 채택함


03. 이원 분산분석

001. 이원 분산분석 ( two -way ANOVA )

: 두 가지 요인을 기준으로 집단 간의 차이를 조사하는 것.

이원 분산 분석 - A 그림

 

002. 상호작용 효과 ( Interaction effect )

사회 과학에서는 독립 변수 끼리 독립적으로 영향을 미치는 것이 아닌, 독립 변수들끼리 복합작용으로 일어나는 효과도 존재

실제로는 A에 해당하는 것 B에 해당하는것 뿐만아니라 복합작용(C)도 생각해야 함.

 

상호작용 효과

003. 가설 수립

: 각 음료와 각 지역에 대한 ( 두 독립변수에 대한 ) 매출의 차이가 있는지 유의 수준 0.05에서 알아보자! < A 그림 참고 >

: 전체 평균 = 2.926 

출처 : 제대로 시작하는 기초통계학 유튜브 강의

004. 편차

위의 공식으로 값을 구하면,

SST = 23.852

SSB_i = 7.183 <  k_i = 9 >

SSB_j = 0.517 < k_j = 9 >

SSB_ij = 1.481 < k = 3 >

SSW = SST - SSB_i - SSB_j - SSB_ij = 14.671

 

자유도로 평균제곱을 구하기

MSB_i = 3.592

MSB_j = 0.259

MSB_ij = 0.370

MSW = 0.815

 

005. 이원 분산 분석표

 

006.  F 분포도 & 가설 채택

- F 분포표에서 F 기각치( F 값 )를 찾으면, 아래의 표와 같은 결과가 나온다.

- F 비가 F 기각치보다 크면 ?  P 값이 0.05로 떨어진다. < 독립변수  i > 

  : 따라서, 귀무가설을 기각하고 대립 가설을 채택한다.

  : 즉, 음료에 따라서, 매출의 차이가 있다! 라는 사실을 알 수 있다.

 

- 교호 작용 ( 상호작용 ) , 지역 ( 독립변수 j ) 는 분산 비율( F 비 ) 가 F 기각치 보다 작다.

  : P 값이 0.05 보다 크다 

  : 귀무가설을 채택한다.

  : 즉, 지역에 따라서 , 교호 작용에 따라서 매출의 차이는 없다! 

 


공부 교재 : 제대로 시작하는 기초통계학 

사회조사분석사

https://www.youtube.com/watch?v=jGOqkljySu8&list=PLsri7w6p16vuDN55ZGHVYnitXs2R1Wz6q