일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- NLP
- MySQL
- GRU
- airflow
- update
- t분포
- 서브쿼리
- torch
- 설명의무
- HackerRank
- nlp논문
- CASE
- SQL코테
- 논문리뷰
- 자연어처리
- 자연어 논문
- LSTM
- 짝수
- SQL 날짜 데이터
- Statistics
- 그룹바이
- 자연어 논문 리뷰
- Window Function
- 표준편차
- inner join
- 카이제곱분포
- sigmoid
- leetcode
- 코딩테스트
- sql
- Today
- Total
HAZEL
[Basic Statistics : CH 9. 연관성 분석] 연관성 분석 , 상관 분석, 공분산과 상관계수, 교차분석 본문
[Basic Statistics : CH 9. 연관성 분석] 연관성 분석 , 상관 분석, 공분산과 상관계수, 교차분석
Rmsid01 2020. 12. 8. 16:44CH9. 연관성 분석
01. 연관성 분석
001. 연관성 분석 ( association analysis )
: 어떤 조사 대상에서 수집된 자료를 척도를 기준으로 구분할 수 있는데, 이때 변수들 간에 어느 정도의 밀접한 관계가 있는지 판단하는 방법
: 자료의 척도를 기준으로 변수간의 연관성을 파악함
: 따라서, 척도에 따라서 연관성 분석이 달라지게 됨. -> 여러 가지 연관성 분석 방법이 존재.
002. 연관성 분석이 필요한 이유
: 연구 목적이 다양한 목적 ( 다차원 목적 ) 으로 고찰하게 됨.
: 조사를 여러 변수에 대해서 진행하면 효율이 높아짐.
003. 척도 [ 적절한 데이터를 구성하기 위한 기준 ]
1. 범주형 척도 : 명목 척도, 서열 척도
: 하나하나 구분이 되어있는 것
- 명목 척도 : 이름이나 명칭을 숫자를 부여하지만 수치에 의미가 없음
ex, 남 1 / 여 0 -> 남자와 1 / 여자와 0 은 서로 관계가 없음
- 서열 척도 ( 순서 척도 ) : 명목 척도의 특징을 가지고 있으면서, 순서를 가짐 ex, 1등 2등 ,,
2. 연속형 척도 : 등간 척도, 비율 척도
: 구분이 되어있지 않고, 연속되어 있는 것.
- 등간 척도 ( 간격 척도 ) : 명목 척도와 서열 척도에 대한 정보를 가지면서도 등간 정보를 포함하는 것
ex, 온도 ( 0도는 절대 0점이 아니다 )
- 비율 척도 : 앞의 모든 정보를 포함하면서 비율에 관한 정보를 담음.
절대 '0'의 값(절대 영점)을 가지고 사칙연산 가능함 ex, 무게, 길이
004. 연관성 분석의 구분 : 척도에 따라 구분이 됨.
교차 분석 : 빈도로부터 어느 정도 빈도가 나오는지, 앞으로 어떻게 나올 것인지 , 기대를 가지고 보는 것
** 기초 통계에서는 피어슨 상관 분석과 교차분석만 봄.
02. 상관분석
001. 상관 분석 ( correlation analysis )
: 조사 목적에 맞게 구성된 변수들 간의 연관성을 분석하는 방법
: A 변수가 증가함에 따라 B 변수도 증가되는지 혹은 감소하는지를 분석하는 것이다.
: 상관분석에는 두 변수 사이의 선형적인 관계 정도를 나타내기 위해 상관계수(correlation coefficient)를 사용한다.
: 확률론과 통계학에서 두 변수 간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법
: 두 개의 변수를 기준으로 양의 방향으로 연관이 있는가? 음의 방향으로 연관이 있는가 ? 혹은 연관이 없는가?
ex, 키와 몸무게의 상관 분석
002. 산포도 ( scatter diagram )
: 연관성이 있는 변수들을 x, y의 축을 기준으로 그래프를 그리는 것
: 표본이 가지는 중심 경향을 파악하고, 정도를 파악하는 것.
03. 공분산과 상관계수
001. 공분산 ( covariance )
: 두 개의 확률변수에 대한 흩어짐의 정도가 양의 방향인지 음의 방향으로 되어있는지 나타나는 수치
: 두 변수가 서로 변하는 정도를 수치로 나타나는 것
: 두 변수가 서로 변하는 것
: x가 변하면 y는 어떻게 변하는가?
: x, y에 대해서 공통적으로 나타나는 분산을 공분산이라고 함.
-> 이에 대한 분석을 공분산 분석이라고 함.
= [ ( x의 평균 편차 ) x ( y의 평균 편차)]의 총합 / ( 조합을 이루는 개수)
- 공분산의 단점 : 양수 / 음수 정도의 느낌은 알지만, 무한대에서 -무한대의 값을 가지고 있기 때문에, 관계 간의 세기를 파악하기 쉽지 않다. 이를 해결하기 위해서 상관계수를 파악함
002. 상관계수 ( correlation coefficient )
: 공분산을 표준화한 것
: 공분산의 한계를 극복하기 위해서 개발된 것
: X의 표준편차와 Y의 표준편차를 가지고 X/Y의 공분산을 나눈 것
: 상관계수는 -1 ~ 1 사이에 관계를 가짐.
: 1에 가까울수록 양의 상관 관계를 가짐을 의미 / -1에 가까울 수록 음의 상관관계를 가짐을 의미
: 0은 상관관계가 없다는 것을 의미함.
: 상관관계를 통해 관계 간의 강도를 알 수 있다.
04. 교차분석
: 척도가 명목 척도인 경우의 분석 방법
001. 교차 분석 ( Cross-tabulation analysis ) = 카이제곱 검정 ( CHi - Squared Test )
: 연관관계를 확인하기 위해서 하는 것.
: 범주형으로 구성된 자료들 간에 교차 표를 만들어서 관계를 확인하는 것.
: 변수들 간의 빈도를 이용하여 상호 연관성을 파악함.
: 검정 통계량으로 카이 제곱 검정 통계량을 하기 때문에, 카이제곱 검정이라고 부르기도 함.
002. 카이제곱 검정을 위한 개념
- 교차 표 ( cross-tabulation )
: 서로 연관성 있는 빈도를 확인할 수 있음
- 관측 빈도 ( observed frequency )
: 관측된 데이터의 빈도를 나타냄
: O_ij라고 표시
- 기대 빈도 ( expected frequency )
: 전체 빈도 n 이 있다면, 교차 표의 열의 합을 기준으로 봤을 때, 각 교차가 되는 셀의 몇 번의 빈도가 확인될 수가 있을지 예상하는 기대값
: E_ij = n_i * n_j / n
002. 카이제곱 통계량
: 관측 빈도와 기대 빈도 사이에 어떤 유의미한 차이가 있는지 확인하는 통계량
: 카이제곱 검정의 x^2 값은 편차의 제곱 값을 기대 빈도로 나눈 값들의 합이다.
: 자유도는 n-1. 자유도가 높아질수록, 즉 범주형 변수의 개수가 많아질수록 원점에서 멀어져서, 정규분포 모형을 띤다.
- 교차 분석은 적합도 검정 / 독립성 검정 / 동질성 검정의 3가지로 분류할 수 있다.
003. 적합도 검정 ( goodness of fit test )
: 적합도 검정은 표본 집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법
: 적합도 검정의 자료를 구분하는 범주가 상호 배타적이어야 한다.
: 표본으로부터 양자택일 빈도
: 기초정보가 없다 하면, 양자택일 빈도는 50:50 임.
: 기대 빈도와 관측 빈도의 차이가 적으면 적을수록 적합한 것 = 차이가 클수록 귀무가설을 기각할 확률이 높다.
- 자유도 : n -1
- 귀무가설 : 표본 집단의 분포가 주어진 특정 분포를 따른다.
: 위의 휴가 계획표를 통해 검정을 하면, 평균은 50 , 카이제곱 분포 = 6.48 + 6.48 = 12.6이 나옴.
유의 수준 0.05와 자유도가 1이기 때문에, 카이제곱 분포표에서 3.84이 나온다.
12.6은 3.8보다 크기 때문에 귀무가설을 기각하고 대립 가설을 채택한다.
004. 독립성 검정 ( independence test )
: 여러 범주를 가지는 2개의 요인이 독립적인지, 서로 연관성이 있는지를 검정하는 기법이다.
: 여러 가지 변주를 대상으로 각 변주들이 독립적인지 판단하는 방법
: 각 해당하는 변주들이 독립적인가? 독립적이지 않는가?
- 자유도 = ( r -1 ) * ( c -1 ) [ 행과 열의 -1 한 것을 곱한 것 ]
- 귀무가설 : 요인 1과 요인 2는 독립적이다로 설정한다.
005. 동질성 검정
: 각각의 독립적인 부모집단으로부터 정해진 표본의 크기만큼 자료를 추출하는 경우에 관측값들이 정해진 범주 내에서 서로 동질 한 지 ( 비슷하게 나타나고 있는지 ) 여부를 검정하는 기법이다.
- 특징 : 두 변수가 서로 독립인지 아닌지에 대한 판단이고 동질성 검정은 각 부모집단의 동질성 여부를 검정하는 차이가 있다.
- 동질성 검정과 독립성 검정은 개념상의 차이만 있을 뿐 계산 방식은 동일하다.
공부 교재 : 제대로 시작하는 기초통계학
사회조사분석사
https://www.youtube.com/watch?v=jGOqkljySu8&list=PLsri7w6p16vuDN55ZGHVYnitXs2R1Wz6q