HAZEL

[ NLP : CH2. 기초수학 ] 확률변수와 확률 분포/ 기댓값과 샘플링 / MLE / 정보이론 본문

DATA ANALYSIS/NLP

[ NLP : CH2. 기초수학 ] 확률변수와 확률 분포/ 기댓값과 샘플링 / MLE / 정보이론

Rmsid01 2020. 12. 17. 11:48

2장.  기초수학 

2-1. 확률 변수와 확률 분포

2.1.1. 확률 변수

001. 랜덤 변수와 확률

- 랜덤 변수 : 랜덤 하게 발생하는 어떤 사건을 정의함

- 괄호 안의 확률 변수가 특정 값을 가질 때 확률 값을 반환하는 함수

- 확률 변수 x가 값 x가 나올 확률 값 p

- 이 때, 확률 p는  0에서 1 사이의 값이 될 수 있다. 

- 확률 변수 x가 가질 수 있는 N개의 값에 대한 확률을 모두 더하면 1이 된다.

 

002. 이산확률 변수와 이산 확률 분포

- 이산 확률 분포 : 불연속적인 랜덤 변수를 다루는 것 

- 확률 질량 함수 : 불연속적인 이산 확률 변수에 대한 확률 함수

  EX, 베르누이 분포, 멀티 눌리 분포

 

- 베르누이 분포 : 0과 1 두 개의 값만 가질 수 있다.

   -> 이항분포 : 확률 분포를 더 일반화하여 여러 번 일어날 수 있는 확률에 대해 이야기한 분포

- 멀티눌리 확률분포 : 주사위의 경우와 같이 여러 개의 이산적인 값을 가질 수 있다.

   -> 다항 분포 : 확률 분포를 더 일반화하여 여러 번 일어날 수 있는 확률에 대해 이야기한 분포

 

003. 연속 확률 변수와 연속 확률 분포

- 연속 확률 변수 : 연속적인 값을 다루는 것

- 연속 확률 분포 ( 확률 밀도 함수) : 연속확률변수를 가지는 확률 분포

   : 확률변수로 정의된 공간에 대해 확률값이 아닌 확률 밀도로 정의할 수 있다. 

- 어떤 값에 대한 확률 밀도 p(x)은 꼭 1보다 작을 필요는 없으며, p(x)를 적분한 것은 항상 1이다. 

 ex, 정규분포 ( 가우시안 분포 )

2.1.2. 결합 확률

: 두개 이상의 사건이 동시에 일어날 확률 P ( A, B )

 -> 따라서 두 개 이상의 확률 변수를 가짐  

 

- 독립 : 발생하는 사건이 서로에게 영향을 끼치지 않는 것 

         : 두 사건이 서로 독립관계라면, P(A, B) = P(A) P(B)가 성립한다.

 

2.1.3. 조건부 확률

: 하나의 확률 변수가 주어졌을 때, 다른 확률 변수에 대한 확률 분포

 ex, P(A|B =2) : B가 2가 나올 때, A 에서 얻을 수 있는 확률 분포. A값을 모르니까 때문에, 확률의 값을 반환하는 것이 아니라 확률 분포 함수를 반환한다.

 

베이즈 정리

2.1.4. 주변 확률 분포

: 두개 이상의 확률 변수의 결합 확률 분포가 있을 때, 하나의 확률 변수에 대해서 적분을 수행한 결과


2-2. 기댓값과 샘플링

2.2.1. 기댓값

: 기댓값은 보상과 그 보상을 받을 확률을 곱한 값의 총합

: 즉, 보상에 대한 가중평균 

 

- 주사위에 대한 예시를 수식으로 표현하기

- 주사위에 대한 예시는 연속확률변수는 아니지만, 만약, 연속 확률 변수라면 어떻게 공식을 세워야 하는지 적은 것이다.

 

2.2.2. 몬테카를로 샘플링

: 랜덤 성질을 이용하여 임의의 함수 적분을 근사하는 방법

 


2-3. 최대가능도 추정(MLE)

2.3.1. MLE

일반화 : 데이터를 잘 설명할 수 있거나, 주어진 데이터로부터 결괏값을 잘 예측하는 것들

 

- 가능도(우도) : 주어진 데이터 { x : a, b, c }를 설명하는 확률분포 파라미터(θ)에 대한 함수

 : 따라서, 이산확률변수를 갖는 확률 분포에서는 확률 값 자체가 가능 도로 표현됨.

   연속 확률 변수를 갖는 확률 분포의 경우에는 확률 밀도 값이 가능도를 나타냄. 

 

ex, 서로 독립인 n번 시행을 거쳐 얻은 데이터( x1 , x2, x3 )에 대한 가능도는 아래처럼 표현 가능

- x|θ는 확률 밀도함수에서 x가 가지는 y. 즉 높이를 의미한다. 이 높이들을 다 곱해서 가장 커질 때, 값들이 이그래프를 잘 설명하고 있다고 말할 수 있게 되는 것이다.

 

 

위의 수식에 로그를 취하면, 곱을 합으로 표현할 수 있다. [ 로그 가능도 ] 

로그로 취하면 좋은 점?! 

1. 소수점이 너무 작게 표현되어 언더 플로 현상이 나는 것을 방지할 수 있다.

2. 곱셈 연산을 덧셈 연산으로 바꾸어주어 연산을 빠르게 할 수 있다.

3. 가우시안 분포(정규분포)에서 지수(exponent)를 제거할 수 있다.

 

로그를 취하면 지수를 제거할 수 있다.

: 가능도에 로그를 취하여 로그 가능도를 최대화할 수 있다. 이는 가능도를 최대화한 것과 같은 값을 가진다.

  만약 -1을 곱하면 최소화 문제로 치환할 수 있다.

  -1이 곱해진 로그 가능도를 음의 로그 가능도(negative log-likelihood , NLL)이라고 부른다. 

  즉, NLL 값을 최소화하면 MLE를 하는 것과 같은 효과를 얻을 수 있다.

 

 

2.3.2. 확률 분포 함수로서의 신경망

- 신경망도 확률 분포 함수다.

- 신경망 가중치 파라미터 θ가 훈련 데이터를 잘 설명하도록 경사 하강법(Gradient descent)을 통해 MLE를 수행하여 학습한다. 

 


2-4. 정보이론

2.4.1. 정보량

- 정보이론 : 데이터를 정량화하기 위한 응용수학의 분야, 신경망과 밀접한 연관이 있다.

- 정보량 : 불확실성 또는 놀람의 정도 - 정보량이 높다는 것은 일어날 확률이 낮은 것을 의미함. 

- 확률이 낮은 사건에 대한 정보가 맞으면 그 정보는 굉장히 소중해 짐

2.4.2. 엔트로피

엔트로피 : 정보량의 평균(기댓값)을 취할 수 있음

: 분포의 대략적인 모양이 얼마나 퍼져있는지, 뾰족한지 가늠할 수 있는 척도

 > 엔트로피가 작으면 뾰족함. = 특정 값에 대한 확률이 높다. 

교차 엔트로피 : 분포 함수 P에서 샘플링한 x 를 통해 분포함수 Q의 평균 정보량을 나타낸 것. 

                   : 다른 분포 P를 사용하여 대상 분포 Q의 엔트로피를 측정함. 

- 교차 엔트로피는 보통 이산 확률변수를 다루는 확률 분포에 해당하는 내용이다.

- 연속 확률 분포의 경우는 보통 평균 제곱 오차(MSE)를 사용하여 훈련한다.

 

2.4.3. 쿨백-라이블러 발산 ( Kullback-LeIbler divergence : KLD )

: KLD는 두 분포 사이의 괴리를 보여줌

: KLD를 미분하면 교차 엔트로피와 같은 미분 결괏값이 나온다.

즉, 교차 엔트로피를 손실 함수로 활용하여 경사 하강법을 수행하는 것과, KLD를 손실함수로 사용하여 경사하강법을 수행해 신경망을 훈련하는 것과 과정이 같다고 말할 수 있다.


** 본 게시글은 자연어 책을 공부하면서 정리한 것 

출처 : 김기현의 자연어 처리 딥러닝 캠프 _ 파이 토치 편

ratsgo.github.io/statistics/2017/09/22/information/