일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- torch
- 서브쿼리
- 자연어처리
- 코딩테스트
- 표준편차
- 설명의무
- airflow
- CASE
- 자연어 논문
- sql
- 짝수
- NLP
- nlp논문
- 자연어 논문 리뷰
- sigmoid
- update
- 카이제곱분포
- LSTM
- leetcode
- GRU
- Window Function
- 그룹바이
- SQL 날짜 데이터
- 논문리뷰
- inner join
- t분포
- SQL코테
- MySQL
- Statistics
- HackerRank
- Today
- Total
목록DATA ANALYSIS (78)
HAZEL

5장. 유사성과 모호성 5-1. 단어의 의미 5.1.1. 단어와 의미의 관계 표제어 : 겉으로 보이는 단어의 형태 - 같은 형태이지만, 다른 의미로 쓰이는 단어가 존재. 사람들은 주변정보에 따라 의미를 파악함 - 주변정보가 부족하여 모호성이 증가하면, 사람이여도 해석이 실패함. 중의성 문제 : 한가지 형태의 단어에 여러 의미가 포함되어 생기는 문제. - 기계 번역에서 단어의 의미에 따라 해당 번역 단어의 형태가 완전히 바뀌기 때문에 중요 -> 겉으로 보이는 형태의 매개체를 이해하고 내부의 다양한 의미로 변환하여 사용하여야 함 5.1.2. 동형어와 다의어 동형어 : 형태는 같으나 뜻이 다른 단어, 아예 어원이 다른 의미들이 같은 형태를 띄고 있는 것 다의어 : 한 형태의 단어가 여러의미를 가지지만, 그 의..

Deep Learning 03. GRU ( Gated Recurrent Unit ) 1. Vanilla RNN vs LSTM vs GRU ( Gated Recurrent Unit ) Vanilla RNN은 왼쪽의 모형처럼 단순하게 생겼다. 그에 비해 LSTM은 굉장히 복잡한 모형으로 생겼다. GRU는 LSTM의 기능을 가졌지만, 단순화 시킨 모습을 가지고 있다. 2. GRU ( Gated Recurrent Unit )의 구조 : GRU는 Cell State가 없고, Hidden State만 존재하는 구조이다. : Forget Gate 와 Input Gate가 결합되어있다. : Reset Gate가 추가되어있다. - Reset Gate : 이전 Hidden state를 얼마나 사용할지 정하는 역할. 즉, ..

4장. 전처리 4-1. 전처리 4.1.1. 코퍼스 ( 말뭉치 ) : 여러 단어들로 이루어진 문장 * 코퍼스의 종류 - 단일언어 코퍼스 : 한가지 언어로 구성된 코퍼스 - 이중 언어 코퍼스 : 두개의 언어로 구성된 코퍼스 - 다중 언어 코퍼스 : 두개 이상의 언어로 구성된 코퍼스 - 병령 코퍼스 : 언어간의 쌍으로 구성된 코퍼스 ( 영문과 한글이 함께 짝을 이루는 데이터 ) 4.1.2. 전처리 과정 : 코퍼스 수집 -> 정제 -> 문장 단위 분절 -> 분절 -> 병렬 코퍼스 정렬 ( 생략 가능 ) -> 서브워드 분절 4-2. 정제 4.2.1. 전각 문자 제거 : 전각문자를 반각문자로 변환해주는 작업 필요 전각문자 : 특수문자 기호. 문자의 폭이 일반적인 영문자의 고정폭의 두배정도의 폭을 가지는 문자. 반각..

Deep Learning 02. 1. Vanilla RNN과 LSTM의 차이!? Vanilla RNN의 기울기 소실 문제로, LSTM을 많이 쓴다고 저번 포스팅에 기록을 했었다. 2020/12/20 - [DATA/ML & DL] - [Deep Learning 01 ] 순환 신경망(Recurrent Neural Network, RNN) / 순차 데이터(Sequential Data) / Vanilla Recurrent Network [Deep Learning 01 ] 순환 신경망(Recurrent Neural Network, RNN) / 순차데이터(Sequential Data) / Vanilla Recurrent Netwo Deep Learning 01. 1. 순차 데이터 ( Sequential Data )..

Deep Learning 01. 1. 순차 데이터 ( Sequential Data ) 001. 순차데이터의 개념 순차데이터 ( Sequential Data ) : 순서가 의미가 있으며, 순서가 달라지는 경우 의미가 손상되는 데이터를 의미한다. 순차 데이터 중에서, Temporal Sequence 는 시간적 의미가 있는 것을 의미한다. 그것이 일정한 시간차라면 Time Series 라고 한다. 002. 순차데이터의 Resampling Resampling 이란, Temporal Sequence를 Time Series로 변환하기 위해 수행하는 것이다. resampling을 수행하는 방법으로 1) 데이터를 보간(Interpolation)한다. 즉, 데이터를 추정하여 비어있는 시간의 사이사이를 매꾸는 작업을 한다..

3장. 파이토치 3-1. 딥러닝 시작하기 전에 부품 요약 최소 권장 CPU 코어 개수보다 단일 클럭이 높아야 한다. i5 i7 RAM 메모리는 많을 수록 좋다 16GB 64GB GPU 메모리가 클수록 좋다. 하지만 메로리가 크면 비싸다. GTX 1060Ti RTX 2080Ti 파워서플라이 비싸고 검증된 브랜드를 선택하기 GPU개당 500W - 쿨링 중요하다. - - 3-2. 파이토치 설치하기 0 ] 아나콘다를 설치한 후, 파이썬 버전을 확인하기 1 ] 파이토치 홈페이지에 들어가기 -> 설치 버튼(install)을 누르기. https://pytorch.org/ PyTorch An open source deep learning platform that provides a seamless path from r..

2장. 기초수학 2-1. 확률 변수와 확률 분포 2.1.1. 확률 변수 001. 랜덤 변수와 확률 - 랜덤 변수 : 랜덤 하게 발생하는 어떤 사건을 정의함 - 괄호 안의 확률 변수가 특정 값을 가질 때 확률 값을 반환하는 함수 - 확률 변수 x가 값 x가 나올 확률 값 p - 이 때, 확률 p는 0에서 1 사이의 값이 될 수 있다. - 확률 변수 x가 가질 수 있는 N개의 값에 대한 확률을 모두 더하면 1이 된다. 002. 이산확률 변수와 이산 확률 분포 - 이산 확률 분포 : 불연속적인 랜덤 변수를 다루는 것 - 확률 질량 함수 : 불연속적인 이산 확률 변수에 대한 확률 함수 EX, 베르누이 분포, 멀티 눌리 분포 - 베르누이 분포 : 0과 1 두 개의 값만 가질 수 있다. -> 이항분포 : 확률 분포..

CH10. 회귀분석 01 . 단순 회귀분석 001. 단순회귀분석 ( Simple regression analysis ) : 원인과 결과 관계를 파악하는 것. : 하나의 변수가 다른 하나의 변수에 대해 미치는 영향을 파악하는 것 : 독립변수 X 가 종속변수 Y 에 미치는 영향을 회귀식 ( 회귀방정식 )을 이용하여 분석하는 방법 002. 독립변수와 종속변수 - 독립변수 ( dependent variable ) : X : 어떤 연구나 조사를 수행할 때, 변수에 일어나는 현상을 설명하거나 , 원인이 되어서 다른 변수에 영향을 주는 변수 - 종속 변수 ( independent variable ) : Y : 연구로 인해 설명이 되거나, 결과가 되는 것. : 다른 변수로 부터 영향을 받는 변수 003. 자연과학 & ..

CH9. 연관성 분석 01. 연관성 분석 001. 연관성 분석 ( association analysis ) : 어떤 조사 대상에서 수집된 자료를 척도를 기준으로 구분할 수 있는데, 이때 변수들 간에 어느 정도의 밀접한 관계가 있는지 판단하는 방법 : 자료의 척도를 기준으로 변수간의 연관성을 파악함 : 따라서, 척도에 따라서 연관성 분석이 달라지게 됨. -> 여러 가지 연관성 분석 방법이 존재. 002. 연관성 분석이 필요한 이유 : 연구 목적이 다양한 목적 ( 다차원 목적 ) 으로 고찰하게 됨. : 조사를 여러 변수에 대해서 진행하면 효율이 높아짐. 003. 척도 [ 적절한 데이터를 구성하기 위한 기준 ] 1. 범주형 척도 : 명목 척도, 서열 척도 : 하나하나 구분이 되어있는 것 - 명목 척도 : 이름..

그동안, 정리한 [ 기초 통계 ] 내용 보러 가기 더보기 2020/06/21 - [DATA/Statistics] - [Basic Statistics : CH 1. 모집단과 표본] 모집단과 표본 추출 , 표본의 분포 2020/11/06 - [DATA/Statistics] - [Basic Statistics : CH 2. 데이터와 통계량] 데이터의 수집(척도), 데이터의 표현방법, 기초 통계량 2020/11/08 - [DATA/Statistics] - [Basic Statistics : CH 3. 확률과 통계] 확률과 의사결정, 확률변수의 기대값과 분산 2020/11/10 - [DATA/Statistics] - [Basic Statistics : CH 4. 확률분포] 확률분포, 이항분포, 포아송분포 2020..