일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- NLP
- 짝수
- 서브쿼리
- 설명의무
- t분포
- GRU
- Statistics
- HackerRank
- nlp논문
- 논문리뷰
- sigmoid
- inner join
- leetcode
- torch
- 자연어 논문 리뷰
- 그룹바이
- sql
- 자연어처리
- 표준편차
- LSTM
- Window Function
- 자연어 논문
- MySQL
- 코딩테스트
- CASE
- airflow
- update
- SQL코테
- 카이제곱분포
- SQL 날짜 데이터
- Today
- Total
목록DATA ANALYSIS/Math (13)
HAZEL
[ Practical Statistics for Data Scientists : 데이터 과학을 위한 통계 ] 의 내용을 스터디하면서 정리한 내용입니다. 1. 위치 추정 : 데이터를 살표보는 가장 기초적인 단계는 각 피처(변수)의 ‘대푯값’을 구하는 것이다. 이는 곧 대부분의 값이 어디쯤 위치 하는지 (중심경향성)을 나타내는 추정값이다. 중심경향도란, 데이터들을 종합하여 그 중심을 이루는 값이 어느 정도가 될지를 구한 것 이다. 1. 평균 ( mean, average ) : 대푯값을 구하는 것으로 대표적으로 생각할 수 있는 방법이다. 평균은 모든 값의 총합을 값의 계수로 나눈 값으로 계산이 용의하고 사용하기도 편하다. 그러나 데이터를 대표로 하는 값으로 적당하지 않다. 평균을 의미하는 기호로 $ \bar{..
[ Practical Statistics for Data Scientists : 데이터 과학을 위한 통계 ] 의 내용을 스터디하면서 정리한 내용입니다. 1. 데이터의 종류 : 데이터의 종류에는 크게 두가지가 있다. '수치형 데이터' , '범주형 데이터'가 있다. 1. 수치형 데이터 : 숫자를 이용해 표현할 수 있는 데이터 a. 연속형 데이터 ( 구간형, 실수형, 수치형데이터 ) : 일정 범위 안에서 어떤 값이든 취할 수 있는 데이터 Ex, 풍속, 지속시간 b. 이산 데이터 ( 정수형, 횟수 데이터 ) : 횟수와 같은 정수값만 취할수있는 데이터 Ex, 사건의 발생빈도 2. 범주형데이터 : 가능한 범주 안의 값만을 취하는 데이터 = 목록, 열거 요인, 명목, 다항형데이터 도시명 - 범위가 정해진 값들 a. ..
CH10. 회귀분석 01 . 단순 회귀분석 001. 단순회귀분석 ( Simple regression analysis ) : 원인과 결과 관계를 파악하는 것. : 하나의 변수가 다른 하나의 변수에 대해 미치는 영향을 파악하는 것 : 독립변수 X 가 종속변수 Y 에 미치는 영향을 회귀식 ( 회귀방정식 )을 이용하여 분석하는 방법 002. 독립변수와 종속변수 - 독립변수 ( dependent variable ) : X : 어떤 연구나 조사를 수행할 때, 변수에 일어나는 현상을 설명하거나 , 원인이 되어서 다른 변수에 영향을 주는 변수 - 종속 변수 ( independent variable ) : Y : 연구로 인해 설명이 되거나, 결과가 되는 것. : 다른 변수로 부터 영향을 받는 변수 003. 자연과학 & ..
CH9. 연관성 분석 01. 연관성 분석 001. 연관성 분석 ( association analysis ) : 어떤 조사 대상에서 수집된 자료를 척도를 기준으로 구분할 수 있는데, 이때 변수들 간에 어느 정도의 밀접한 관계가 있는지 판단하는 방법 : 자료의 척도를 기준으로 변수간의 연관성을 파악함 : 따라서, 척도에 따라서 연관성 분석이 달라지게 됨. -> 여러 가지 연관성 분석 방법이 존재. 002. 연관성 분석이 필요한 이유 : 연구 목적이 다양한 목적 ( 다차원 목적 ) 으로 고찰하게 됨. : 조사를 여러 변수에 대해서 진행하면 효율이 높아짐. 003. 척도 [ 적절한 데이터를 구성하기 위한 기준 ] 1. 범주형 척도 : 명목 척도, 서열 척도 : 하나하나 구분이 되어있는 것 - 명목 척도 : 이름..
그동안, 정리한 [ 기초 통계 ] 내용 보러 가기 더보기 2020/06/21 - [DATA/Statistics] - [Basic Statistics : CH 1. 모집단과 표본] 모집단과 표본 추출 , 표본의 분포 2020/11/06 - [DATA/Statistics] - [Basic Statistics : CH 2. 데이터와 통계량] 데이터의 수집(척도), 데이터의 표현방법, 기초 통계량 2020/11/08 - [DATA/Statistics] - [Basic Statistics : CH 3. 확률과 통계] 확률과 의사결정, 확률변수의 기대값과 분산 2020/11/10 - [DATA/Statistics] - [Basic Statistics : CH 4. 확률분포] 확률분포, 이항분포, 포아송분포 2020..
CH7. 두 모집단 간의 추론 - 실제로는 한개의 집단을 비교하는게 아니라, 두 모집단 간을 추론하는 경우가 많이 생긴다. 01 . 두 모집단의 평균 차이에 대한 가설 검정 ( 대응 표본 ) 001. 대응 표본 ( paired sample ) : 사전 사후 검사에 많이 사용함 : 두 모집단으로부터 표본을 각각 추출하는데, 표본을 구성하는 인자가 짝을 지여서 연관되는 것을 의미 : 모집단 사전 사후 검사 A , B 는 다른 모집단이지만, 표본이 연관이 있다. ( 사실은 같은 사람 .. ) 002. 표본 통계량과 표준 오차 003. 가설 검정 02. 두 모집단의 평균 차이에 대한 가설 검정 ( 독립 표본 ) 001. 독립 표본의 모수와 통계량 002. 왜 표본의 분산을 고려해야하는 가? - 표본 a / 표본..
CH6. 가설검정 ( Hypothesis Testing ) 01 . 가설검정과 유의수준 001. 가설 - 주어진 사실 혹은 조사하고자 하는 사실이 어떠하다는 주장이나 추측 ' 모수는 어떠할 것이다 ! ' 1. 귀무가설 ( null hypothesis ) [ 귀무 : 원점으로 돌아가다. 일반적으로 믿는 사실 ] = 영가설 = H0 : 조사를 할 필요가 없는, 연구를 할 필요가 없는 가설 : 귀무가설이 아니라는 충분한 증거를 데이터로부터 보임으로써 대립가설을 입증. : 귀무가설 하에서 통계량의 분포를 아는 것이 검정의 핵심 2. 대립가설 ( anti - hypothesis ) = H1 : 귀무가설(영가설)에 대립하는 가설 , 연구를 위한 가설 , 입증하여 주장하고자하는 가설 002. 검정 ( TESTING ..
CH5. 추정 01 . 점추정과 구간추정 001. 점추정 ( point estimation ) - 점추정 : 모수를 특정한 수치로 표현하는 것 ex, 30분 - 하나의 값으로 표현하는 것이기 때문에, 틀릴 확률이 多 - 추정량을 통해 모수를 추정 002. 추정치와 추정량 1. 추정치 ( estimate ) : 모수를 추정하기 위해 선택된 표본을 대상으로 구체적으로 도출된 통계량 2. 추정량 ( estimator ) : 표본에서 관찰된 값으로 추정치를 계산하기 위한 도출 함수 003. 바람직한 점 추정량 조건 1. 평균 오차제곱 : 평균 오차 제곱이 최솟값이어야 한다. - 오차 ( 평균 - 측정치 )의 평균이 최소가 되어야 하는 것 = 평균에 가깝다 와 같은 의미 2. 불편성 : 추정량이 모수와 같아야 한..
CH4. 확률분포 01 . 확률분포 001. 확률분포 - 확률분포( Probability Distribution ) : 발생할 사건에 대해 확률을 나열한 것 > 과거의 데이터가 많다면, 의사결정을 하는데 유리하다. > 확률 분포도(그래프)와 확률 분포 표(표) 002. 균등분포( Uniform distribution ) - 주사위 던지기의 예와 같이 과거의 경험이 미래를 예측하는데 어떤 영향도 미치지 않으며, 나타날 가능성이 모두 동일한 분포 1. 이산균등분포 ( discrete uniform distribution) : 이산 확률분포 중 확률 함수가 정의된 모든 곳에서 그 값이 일정한 분포를 의미함 ex, 주사위 던지기 2. 연속 균등 분포 : 시간의 흐름과 같이 구분할 수 없는 것 003. 정규분포 ..
CH3. 확률과 통계 01 . 확률과 의사결정 001. 통계의 목적 - 통계의 목적 : 모수를 추정 - 추정의 이유 : 모집단을 대상으로 하는 조사가 불가능하거나, 시간과 비용 등의 물리적 한계 때문 002. 확률 1. 확률이란 - 확률 : 어떤 사건이 실제로 일어날 것인지 혹은 일어났는지에 대한 지식 혹은 믿음을 표현하는 방법 ( 0~1사이 ) - P(A) : A가 발생할 확률 = n번 실행해서 사건 A가 발생할 경우 - 즉, 전체(표본공간) 경우의 수에서 사건 A의 경우의 수를 의미한다. 2. 확률이 가지는 조건 - 확률은 0과 1사이를 가짐 - 시행횟수(i) 라고 했을 때, 모든 사건을 다 더해준다고 가정하면, 그 사건이 나오는 확률은 100% 즉 , 1이다. 003. 확률의 덧셈법칙 - 서로 다른..