HAZEL

[Basic Statistics : CH 2. 데이터와 통계량] 데이터의 수집(척도), 데이터의 표현방법, 기초 통계량 본문

DATA ANALYSIS/Math

[Basic Statistics : CH 2. 데이터와 통계량] 데이터의 수집(척도), 데이터의 표현방법, 기초 통계량

Rmsid01 2020. 11. 6. 11:22

CH2. 데이터와 통계량

01 . 데이터의 수집 

001. 용어

- 변수 : 어떠한 대응관계로 변화하는 수, 혹은 함수관계로 대응하며 주어진 범위 안에서 변화하는 수 

           -> 변수는 데이터로 구성되고, 데이터를 근거로 변수의 특성을 파악

- 데이터 : 조사의 목적에 맞는 변수를 기반으로, 표본으로부터 수집된 자료

 

 

002. 척도 [ 적절한 데이터를 구성하기 위한 기준 ]

1. 범주형 척도 : 명목척도, 서열척도

  : 하나하나 구분이 되어있는것

 - 명목 척도 : 이름이나 명칭을 숫자를 부여하지만 수치에 의미가 없음

                  ex, 남 1 / 여 0 -> 남자와 1 / 여자와 0 은 서로 관계가 없음 

 - 서열 척도 ( 순서 척도 ) : 명목척도의 특징을 가지고 있으면서, 순서를 가짐 ex, 1등 2등 ,,

 

2. 연속형 척도 : 등간척도, 비율척도

  : 구분이 되어있지 않고, 연속되어 있는 것.

 - 등간 척도 ( 간격 척도 ) : 명목척도와 서열척도에 대한 정보를 가지면서도 등간 정보를 포함하는 것

                                    ex, 온도 ( 0 도는 절대 0점이 아니다 )

 - 비율 척도 : 앞의 모든 정보를 포함하면서 비율에 관한 정보를 담음.

                  절대 '0'의 값(절대영점)을 가지고 사칙연산 가능함 ex, 무게, 길이

 


02. 데이터의 표현 방법

001. 표

- 도수 분포표 : 도수분포표는 수집된 각각의 데이터에 대한 개수를 정리한 표

      단점) 직관적으로 인식되는 형태가 아니어서 일일이 숫자로 비교해야함

002. 그래프

- 그래프 : 숫자를 일일이 살펴보지 않아도 크기나 형태 등을 바로 비교 가능 

 

왼) 도수분포표 오) 히스토그램 / 출처 : 직접 그린 것


03. 기초 통계량

001. 중심경향도

: 중심경향도란, 데이터들을 종합하여 그 중심을 이루는 값이 어느 정도가 될지를 구한 것 

 

1. 평균(mean)

: 평균(mean)은 통계에서 가장 많이 활용되는 중심경향도 

 -> 모든 통계분석에서 사용되며 표본의 특성을 제시할 때 가장 먼저 사용되는 수치

2. 중간값(median)

: 관측된 자료의 편중과 상관없이 가장 작은 값에서 가장 큰 값까지 정렬했을 때, 그 가운데 위치한 값

 

3. 최빈값(mode)

: 최빈값은 표본에서 가장 많이 나타나는 관측치

 -> 여러번 확인된다는 특성으로 중심경향도에 있으나, 최소 부분과 최대 부분으로 쏠림 현상이 나타날 수도 있기 때문에, 특별히 필요성이 없는 한 잘 사용되지 않음

 

002. 산포도

- 표본의 특성이라 할 수 있는 분포의 정도를 나타내는 산포도를 확인해야 한다.

- 중심경향도만으로는 집단에 대한 성격과 분포를 파악하는데 부족하므로, 측정된 데이터가 어떻게 분포하고 있는지에 대해 파악해야 데이터를 제대로 이해할 수 있다. 

 

1. 모분산(variance : var)

: 모평균과 모집단의 개별 측정치들 간의 차를 구해서 제곱하여 모두 더한 후, 그 값을 다시 모집단을 구성하는 개수로 나누어 계산

  ** 왜 제곱을 하는가 ? :  ( 값 - 평균 )을 그냥 빼면, 오차의 + 와 - 가 되어 다 더하면, 0 이 되버림. 따라서 분산을 파악할 수 없음.

왼 ) 분산이 큼  오 ) 분산이 작음

  - 분산이 큼 : 값들이 퍼져있음. 평균이 값들의 특성을 잘 나타낸다고 말하기 어려움

  - 분산이 작음 : 값들이 모여져있음. 값들이 평균값에 모아져 있음.

 

2. 표본분산( sample variance )

 : 모집단을 기준으로 하지 않고, 표본을 선정해서 표본의 개수 (n-1)로 계산한 분산을 표본분산이라 한다.

 ** 자유도는 왜 n-1 이냐? : ex, A, B, C 의 값의 평균이 10이라면, A/B는 10 이상/이하이어도 상관 X, 하지만, A/B값이 정해져버리면, C의 값은 무조건 하나의 값으로 정해져야 평균이 10이 됨. 따라서, 자유롭게 값이 변할수 있는 것은 n-1개가 됨.  

  

3. 표준편차( Standard Deviation )

 : 분산과 편차의 개념은 평균으로부터 측정치들이 어느 정도 흩어져 있는지의 정도를 나타내는 것.

   편차는 평균을 기준으로 음(-)과 양(+)으로 흩어져서 총합이 0이 되니, 이를 피하기 위해 편차에 제곱을 하는 것

 -> 분산값에 루트를 씌워 제곱근을 만들면 표준편차가 됨.

 

4. 평균편차 ( Mean Deviation )

 : 그룹에 대한 값 및 평균값 간 절대 차이의 평균으로 계산함.

 ** 하지만, 표준편차를 더 많이 사용하는 이유 : 평균 편차는 미적분을 해야하는데, 미분계수가 만들어 지지 않음.


공부 교재 : 제대로 시작하는 기초통계학 

사회조사분석사

https://www.youtube.com/watch?v=jGOqkljySu8&list=PLsri7w6p16vuDN55ZGHVYnitXs2R1Wz6q