HAZEL

[Basic Statistics : CH 9. 연관성 분석] 연관성 분석 , 상관 분석, 공분산과 상관계수, 교차분석 본문

DATA ANALYSIS/Math

[Basic Statistics : CH 9. 연관성 분석] 연관성 분석 , 상관 분석, 공분산과 상관계수, 교차분석

Rmsid01 2020. 12. 8. 16:44

CH9. 연관성 분석 

01. 연관성 분석

001. 연관성 분석 ( association analysis )

: 어떤 조사 대상에서 수집된 자료를 척도를 기준으로 구분할 수 있는데, 이때  변수들 간에 어느 정도의 밀접한 관계가 있는지 판단하는 방법

: 자료의 척도를 기준으로 변수간의 연관성을 파악함

: 따라서, 척도에 따라서 연관성 분석이 달라지게 됨. -> 여러 가지 연관성 분석 방법이 존재.

 

002. 연관성 분석이 필요한 이유

: 연구 목적이 다양한 목적 ( 다차원 목적 ) 으로 고찰하게 됨.

: 조사를 여러 변수에 대해서 진행하면 효율이 높아짐.

 

003. 척도 [ 적절한 데이터를 구성하기 위한 기준 ]

1. 범주형 척도 : 명목 척도, 서열 척도

  : 하나하나 구분이 되어있는 것

 - 명목 척도 : 이름이나 명칭을 숫자를 부여하지만 수치에 의미가 없음

                  ex, 남 1 / 여 0 -> 남자와 1 / 여자와 0 은 서로 관계가 없음 

 - 서열 척도 ( 순서 척도 ) : 명목 척도의 특징을 가지고 있으면서, 순서를 가짐 ex, 1등 2등 ,,

 

2. 연속형 척도 : 등간 척도, 비율 척도

  : 구분이 되어있지 않고, 연속되어 있는 것.

 - 등간 척도 ( 간격 척도 ) : 명목 척도와 서열 척도에 대한 정보를 가지면서도 등간 정보를 포함하는 것

                                    ex, 온도 ( 0도는 절대 0점이 아니다 )

 - 비율 척도 : 앞의 모든 정보를 포함하면서 비율에 관한 정보를 담음.

                  절대 '0'의 값(절대 영점)을 가지고 사칙연산 가능함 ex, 무게, 길이

 

004.  연관성 분석의 구분 : 척도에 따라 구분이 됨.

교차 분석 : 빈도로부터 어느 정도 빈도가 나오는지, 앞으로 어떻게 나올 것인지 , 기대를 가지고 보는 것 

 

** 기초 통계에서는 피어슨 상관 분석과 교차분석만 봄.


02. 상관분석 

001. 상관 분석 ( correlation analysis )

: 조사 목적에 맞게 구성된 변수들 간의 연관성을 분석하는 방법

: A 변수가 증가함에 따라 B 변수도 증가되는지 혹은 감소하는지를 분석하는 것이다. 

: 상관분석에는 두 변수 사이의 선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용한다.

: 확률론과 통계학에서 두 변수 간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법

: 두 개의 변수를 기준으로 양의 방향으로 연관이 있는가? 음의 방향으로 연관이 있는가 ? 혹은 연관이 없는가?

ex, 키와 몸무게의 상관 분석

 

002. 산포도 ( scatter diagram )

: 연관성이 있는 변수들을 x, y의 축을 기준으로 그래프를 그리는 것

: 표본이 가지는 중심 경향을 파악하고, 정도를 파악하는 것.

 


03. 공분산과 상관계수

001. 공분산 ( covariance )

: 두 개의 확률변수에 대한 흩어짐의 정도가 양의 방향인지 음의 방향으로 되어있는지 나타나는 수치

: 두 변수가 서로 변하는 정도를 수치로 나타나는 것

: 두 변수가 서로 변하는 것

: x가 변하면 y는 어떻게 변하는가?

: x, y에 대해서 공통적으로 나타나는 분산을 공분산이라고 함.

 

-> 이에 대한 분석을 공분산 분석이라고 함.

 = [ ( x의 평균 편차 ) x ( y의 평균 편차)]의 총합 / ( 조합을 이루는 개수)

 

- 공분산의 단점 : 양수 / 음수 정도의 느낌은 알지만, 무한대에서 -무한대의 값을 가지고 있기 때문에, 관계 간의 세기를 파악하기 쉽지 않다.  이를 해결하기 위해서 상관계수를 파악함

 

002. 상관계수 ( correlation coefficient )

: 공분산을 표준화한 것

: 공분산의 한계를 극복하기 위해서 개발된 것

 

: X의 표준편차와 Y의 표준편차를 가지고 X/Y의 공분산을 나눈 것

: 상관계수는 -1 ~ 1 사이에 관계를 가짐.

: 1에 가까울수록  양의 상관 관계를 가짐을 의미 / -1에 가까울 수록 음의 상관관계를 가짐을 의미

: 0은 상관관계가 없다는 것을 의미함.

: 상관관계를 통해 관계 간의 강도를 알 수 있다. 


04. 교차분석 

: 척도가 명목 척도인 경우의 분석 방법

001. 교차 분석 ( Cross-tabulation analysis ) = 카이제곱 검정 ( CHi - Squared Test )

: 연관관계를 확인하기 위해서 하는 것. 

: 범주형으로 구성된 자료들 간에 교차 표를 만들어서 관계를 확인하는 것.

: 변수들 간의 빈도를 이용하여 상호 연관성을 파악함.

: 검정 통계량으로 카이 제곱 검정 통계량을 하기 때문에, 카이제곱 검정이라고 부르기도 함.

 

002. 카이제곱 검정을 위한 개념

- 교차 표 ( cross-tabulation )

: 서로 연관성 있는 빈도를 확인할 수 있음

 

- 관측 빈도 ( observed frequency )

: 관측된 데이터의 빈도를 나타냄 

: O_ij라고 표시

 

- 기대 빈도 ( expected frequency )

: 전체 빈도 n 이 있다면, 교차 표의 열의 합을 기준으로 봤을 때, 각 교차가 되는 셀의 몇 번의 빈도가 확인될 수가 있을지 예상하는 기대값

: E_ij = n_i * n_j / n 

 

002. 카이제곱 통계량

: 관측 빈도와 기대 빈도 사이에 어떤 유의미한 차이가 있는지 확인하는 통계량

: 카이제곱 검정의 x^2 값은 편차의 제곱 값을 기대 빈도로 나눈 값들의 합이다.

: 자유도는 n-1. 자유도가 높아질수록, 즉 범주형 변수의 개수가 많아질수록 원점에서 멀어져서, 정규분포 모형을 띤다.

- 교차 분석은 적합도 검정 / 독립성 검정 / 동질성 검정의 3가지로 분류할 수 있다. 

 

003. 적합도 검정 ( goodness of fit test )

: 적합도 검정은 표본 집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법

: 적합도 검정의 자료를 구분하는 범주가 상호 배타적이어야 한다.

: 표본으로부터 양자택일 빈도

: 기초정보가 없다 하면, 양자택일 빈도는 50:50 임.

: 기대 빈도와 관측 빈도의 차이가 적으면 적을수록 적합한 것 = 차이가 클수록 귀무가설을 기각할 확률이 높다.

 

적합도 검정의 빈도표

- 자유도 : n -1

- 귀무가설 : 표본 집단의 분포가 주어진 특정 분포를 따른다.

: 위의 휴가 계획표를 통해 검정을 하면, 평균은 50 , 카이제곱 분포 = 6.48 + 6.48 = 12.6이 나옴.

  유의 수준 0.05와 자유도가 1이기 때문에, 카이제곱 분포표에서 3.84이 나온다.

  12.6은 3.8보다 크기 때문에 귀무가설을 기각하고 대립 가설을 채택한다.

 

004. 독립성 검정 ( independence test )

: 여러 범주를 가지는 2개의 요인이 독립적인지, 서로 연관성이 있는지를 검정하는 기법이다.

: 여러 가지 변주를 대상으로 각 변주들이 독립적인지 판단하는 방법

: 각 해당하는 변주들이 독립적인가? 독립적이지 않는가?

 

- 자유도 =  ( r -1 ) * ( c -1 )  [ 행과 열의 -1 한 것을 곱한 것 ]

- 귀무가설 : 요인 1과 요인 2는 독립적이다로 설정한다.

 

 

005. 동질성 검정 

: 각각의 독립적인 부모집단으로부터 정해진 표본의 크기만큼 자료를 추출하는 경우에 관측값들이 정해진 범주 내에서 서로 동질 한 지 ( 비슷하게 나타나고 있는지 ) 여부를 검정하는 기법이다. 

 

- 특징 : 두 변수가 서로 독립인지 아닌지에 대한 판단이고 동질성 검정은 각 부모집단의 동질성 여부를 검정하는 차이가 있다. 

- 동질성 검정과 독립성 검정은 개념상의 차이만 있을 뿐 계산 방식은 동일하다. 


공부 교재 : 제대로 시작하는 기초통계학 

사회조사분석사

https://www.youtube.com/watch?v=jGOqkljySu8&list=PLsri7w6p16vuDN55ZGHVYnitXs2R1Wz6q