일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 설명의무
- sigmoid
- nlp논문
- GRU
- sql
- HackerRank
- leetcode
- 서브쿼리
- MySQL
- NLP
- CASE
- 짝수
- 논문리뷰
- LSTM
- SQL코테
- update
- SQL 날짜 데이터
- 카이제곱분포
- 자연어처리
- 표준편차
- Window Function
- 자연어 논문
- torch
- 코딩테스트
- 그룹바이
- inner join
- Statistics
- t분포
- airflow
- 자연어 논문 리뷰
- Today
- Total
HAZEL
[Basic Statistics : CH 4. 확률분포] 확률분포, 이항분포, 포아송분포 본문
CH4. 확률분포
01 . 확률분포
001. 확률분포
- 확률분포( Probability Distribution ) : 발생할 사건에 대해 확률을 나열한 것
> 과거의 데이터가 많다면, 의사결정을 하는데 유리하다.
> 확률 분포도(그래프)와 확률 분포 표(표)
002. 균등분포( Uniform distribution )
- 주사위 던지기의 예와 같이 과거의 경험이 미래를 예측하는데 어떤 영향도 미치지 않으며, 나타날 가능성이 모두 동일한 분포
1. 이산균등분포 ( discrete uniform distribution)
: 이산 확률분포 중 확률 함수가 정의된 모든 곳에서 그 값이 일정한 분포를 의미함
ex, 주사위 던지기
2. 연속 균등 분포 : 시간의 흐름과 같이 구분할 수 없는 것
003. 정규분포 ( normal distribution )
정규분포 : 축적된 데이터를 기준으로 미래를 예측할 수 있는 분포, 평균과 분산으로 특성을 다 설명할 수 있는 분포
- 평균에 대해서 가장 많이 모여있으며, 좌우 대칭인 가운데가 볼록 올라와 있는 분포
- 표본 분포 중에서 가장 단순하면서 많이 나타나는 형태의 분포
- 어떤 사건이 일어난 빈도를 계산하여 그래프로 나타내면 중심(평균)을 기준으로 좌우가 대칭되는 분포
1. 정규분포란?
- 정규분포를 간단히 표현하는 것 :
= 평균이 0이고 표준편차가 1인 정규분포
- 연속 확률변수 X의 확률 밀도 함수 f(x)
2. 정규분포 곡선의 성질
- σ가 일정할 때, m이 클수록 오른쪽으로 이동한다.
- m가 일정할 때, σ 가 커질수록 그래프의 폭이 넓어진다. = 분산이 커진다. = 값들이 퍼져있다.
004. 표준 정규 분포 ( standard normal distribution )
: 서로 다른 정규분포를 비교할 수 있도록 여러 개의 분포를 어떤 하나의 기준으로 재배치해서 서로 비교할 수 있도록 한 표준화된 분포
- 정규분포를 0을 기준으로 재 배치하는 것
1. 표준 정규분포란?
- 표준 정규분포를 간단히 표시하는 것 : N(0,1) = 평균이 0이고 σ가 1 인 것
- 연속 확률변수 X의 확률 밀도 함수 f(x)
2. 정규분포를 표준 정규분포로 변경
02. 이항 분포
** 이항분포 : 두 가지의 항목으로 된 분포 , 서로 반대가 되는 사건으로 된 것
001. 베르누이 시행 ( Bernoulli's trials )
베르누이 시행 : 서로 반대되는 사건이 일어나는 실험을 반복적으로 실행하는 것
반드시 결과가 두 개만 존재. 반대되는 사건이 동시에 나오지 않음 - 배타적 사건이 돼야 함.
ex, 동전 던지기 - 앞/뒤
> 베르누이 시행의 결과를 바탕으로 이항 분포를 설명함
002. 베르누이 분포 ( Bernoulli's distribution )
베르누이 시행을 확률 분포로 나타낸 것
-> 성공 확률을 p(x =1 인 경우)라 할 때, 실패 확률은 1-p ( x =0 인경우)라고 가정.
서로 반대되는 배반 사건이기 때문에 확률은 100%에서 빼는 것
** 베르누이 분포의 평균과 분산
- 평균 = p
- 분산 = p(1-p)
003. 이항분포 ( binomial distribution )
이항분포 : 연속적인 베르누이 시행을 거쳐 나타나는 확률 분포
독립된 베르누이 시행을 n을 반복했을 때, x 가 나타는 확률
X ~ B ( n , p)
** 이항분포의 평균과 분산
- 평균 = np
- 분산 = np(1-p)
004. 이항분포의 확률
이항분포의 확률 : n 번의 시행에서 성공확률 (p)이 r 번 나타날 확률이며, n번의 시행에서 r번 관찰되는 것(이항계수)을 nCr로 표현할 수 있음
- r 번 성공할 확률과 (n-r)번의 실패할 확률을 곱하면, 이항분포의 확률 함수는
- (n r) = n! / r!*(n-r)! = nCr 을 의미함 : 이항계수 라고 함. 여러번 걸쳐서 하는 실험이기 때문에 횟수와 관련이 있음.
- n : 총횟수 / r = 성공 횟수 / n-r : 실패 횟수
- 이항계수는 고등학교때 배운 nCr 조합을 의미한다.
** 참고 : nCr = nC(n-r) 와 같은 의미이다.
03. 포아송분포
001. 포아송 분포 ( poisson distribution )
1. 포아송 분포
포아송 분포 : 특정한 사건이 발생할 가능성이 매우 드문 경우의 확률분포
단위 시간 안에 어떤 사건이 몇 번 발생할 것인지 표현하는 이산 확률 분포
일정한 단위 시간, 단위 공간에 어떤 사건이 랜덤 하게 발생하는 경우에 사용할 수 있는 이산형 확률분포
ex , 야구 관람 중에 홈런볼이나 파울볼을 받을 확률 / 1시간 동안 은행에 방문하는 고객의 수 ,
1시간 동안 콜센터로 걸려오는 전화의 수
2. 포아송 분포의 확률
- n(시행 횟수)가 무한대이거나 p(일어날 확률)이 매우 작으면, 이항 분포를 사용하기 힘듦
> 이러한 상황에서 포아송 분포를 이용함. ( 측정하기 불가능할 정도로 힘들 때 사용. )
- 이항 분포의 확률에서 포아송 분포에 대한 식을 유도할 수 있음
- ex. 말을 타는 횟수 (n) 중 말에서 떨어지는 사고가 발생하는 횟수 (x)
002. 포아송 분포 특징
- 포아송분포의 평균과 분산 모두 λ 이다.
- λ( lambda ) : 일정한 단위 시간 / 단위 공간에서 랜덤 하게 발생하는 사건의 평균 횟수를 의미함
- λ 가 커지면 평균이 커지므로 그래프가 우측으로 이동하고, 분산이 커지므로 좌우가 퍼짐.
참고 자료 : hsm-edu.tistory.com/837
공부 교재 및 참고 : 제대로 시작하는 기초통계학
사회조사분석사
https://www.youtube.com/watch?v=jGOqkljySu8&list=PLsri7w6p16vuDN55ZGHVYnitXs2R1Wz6q