일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- HackerRank
- update
- 짝수
- 그룹바이
- sigmoid
- 설명의무
- CASE
- airflow
- Statistics
- LSTM
- sql
- 카이제곱분포
- torch
- SQL 날짜 데이터
- leetcode
- nlp논문
- 코딩테스트
- 자연어 논문
- 표준편차
- 자연어 논문 리뷰
- 자연어처리
- Window Function
- t분포
- MySQL
- 논문리뷰
- SQL코테
- inner join
- 서브쿼리
- GRU
- NLP
- Today
- Total
목록전체 글 (108)
HAZEL
시계열 데이터를 만지다 보면, 자연스럽게 datetime 으로 datatype을 바꾸고 다양하게 이용한다. 항상 헷갈리고 까먹기 때문에, 블로그에 정리하려고 한다! 1. int(str) -> Datetime 으로 변환하기 변환하는 방법은 크게 두가지가 있다. 1. pandas 함수를 이용하기. 2. datetime 함수를 이용하기. 0.0. 데이터 불러오기 : 데이터 타임으로 바꿀 데이터를 불러온다. : 나는 int 로 되어있는 데이터를 가지고 왔다. - 데이콘 공모전에서 얻은 데이터를 time 데이터만 따로 저장해서 가져왔다. import pandas as pd data = pd.read_csv('datatime_exa.csv') data.info() RangeIndex: 5429 entries, 0 ..
8장. 텍스트 분류 ( text classification ) 8.1. 텍스트 분류? - 텍스트 분류란, 텍스트 / 문장 또는 문서를 입력으로 받아 사전에 정의된 클래스 중에서 어디에 속하는지 분류하는 과정 : 딥러닝 전, 나이브 베이지 분류 ( Naive Bayes classification ), SVM(support-vector machine) 등 존재함 8.2. 나이브 베이즈 : 나이브 베이즈는 간단하지만, 매우 강력한 분류 방식. 단어를 불연속적인 심볼로 다루는 만큼 아쉬운 부분도 존재함 나이브 베이즈를 이해하기 위해서는, 베이즈 정리를 이해해야 하기 때문에, 아래에 먼저 베이즈 정리를 다루겠음. 8.2.1. Bayesian Theorem ( 베이즈 정리 ) : 데이터 D가 주어졌을때, 각 클래스..
7장 시퀀스 모델링 부분은 예전에 DL을 공부하고 정리한 파트와 유사함. 2020/12/20 - [DATA/ML & DL] - [Deep Learning 01 ] 순환 신경망(Recurrent Neural Network, RNN) / 순차데이터(Sequential Data) / Vanilla Recurrent Network 2020/12/21 - [DATA/ML & DL] - [Deep Learning 02 ] LSTM ( Long Short - Term Memory ) 2020/12/26 - [DATA/ML & DL] - [Deep Learning 03 ] GRU ( Gated Recurrent Unit ) 7장. 시퀀스 모델링 시퀀스 모델링 ( sequential modeling ) : 시간 개념 또..
6장. 단어 임베딩 6.1. 차원 축소 ( Dimensionality Reduction ) 앞에서 배운 내용으로 단어는 모호성을 가짐을 알 수 이었다. 이런 특징 때문에, 자연어 처리에서 단어나 문장, 문서를 벡터로 나타내는 것은 중요하다. 즉, 사람이 사용하는 자연어의 형태와 컴퓨터가 이해하는 벡터로 변환이 가능한 함수 또는 맵핑 테이블을 만들어내는 과정이 중요하다. 하지만, 높은 차원으로 데이터를 표현하면, 희소성 문제가 발생하는 것을 알 수 있다. 또한 차원이 증가하면, 그걸 처리하기 위한 데이터량이 증가하는 차원의 저주에 걸릴 수 도 있다. 따라서, 차원 축소를 통해 더 낮은 차원으로 사용하는 것이 중요하다. 차원축소 ( Dimensionality Reduction ) 이란, 데이터의 의미를 제대..
5장. 유사성과 모호성 5-6 . 특징 벡터 만들기 5.6.1. TF 행렬 만들기 TF : 단어의 문서별 출현 횟수 -> 공부의 특징 벡터 : [0,0,1] 한계점 - 문서가 적으면, 특징 벡터를 구성했다고 하기엔 무리가 존재함. 그러나 너무 많으면 지나치게 많은 차원이 생김 - 희소벡터가 될 수 있음 ( 벡터의 극히 일부분만 의미있는 값, 나머지는 0으로 채워진 벡터 ) -> 특정 통계를 얻는데 걸림돌 이 될 수 있음 5.6.2. 컨텍스트 윈도우로 함께 출현한 단어들의 정보 활용 ( Based on Context Window ( Co- occurrence ) ) - 윈도우 기반 동시 등장 행렬 - 단어별로 윈도우 내에 속해 있는 이웃 단어들의 출현 빈도를 세어 행렬로 나타내는 것 - window siz..
5장. 유사성과 모호성 5-1. 단어의 의미 5.1.1. 단어와 의미의 관계 표제어 : 겉으로 보이는 단어의 형태 - 같은 형태이지만, 다른 의미로 쓰이는 단어가 존재. 사람들은 주변정보에 따라 의미를 파악함 - 주변정보가 부족하여 모호성이 증가하면, 사람이여도 해석이 실패함. 중의성 문제 : 한가지 형태의 단어에 여러 의미가 포함되어 생기는 문제. - 기계 번역에서 단어의 의미에 따라 해당 번역 단어의 형태가 완전히 바뀌기 때문에 중요 -> 겉으로 보이는 형태의 매개체를 이해하고 내부의 다양한 의미로 변환하여 사용하여야 함 5.1.2. 동형어와 다의어 동형어 : 형태는 같으나 뜻이 다른 단어, 아예 어원이 다른 의미들이 같은 형태를 띄고 있는 것 다의어 : 한 형태의 단어가 여러의미를 가지지만, 그 의..
Deep Learning 03. GRU ( Gated Recurrent Unit ) 1. Vanilla RNN vs LSTM vs GRU ( Gated Recurrent Unit ) Vanilla RNN은 왼쪽의 모형처럼 단순하게 생겼다. 그에 비해 LSTM은 굉장히 복잡한 모형으로 생겼다. GRU는 LSTM의 기능을 가졌지만, 단순화 시킨 모습을 가지고 있다. 2. GRU ( Gated Recurrent Unit )의 구조 : GRU는 Cell State가 없고, Hidden State만 존재하는 구조이다. : Forget Gate 와 Input Gate가 결합되어있다. : Reset Gate가 추가되어있다. - Reset Gate : 이전 Hidden state를 얼마나 사용할지 정하는 역할. 즉, ..
4장. 전처리 4-1. 전처리 4.1.1. 코퍼스 ( 말뭉치 ) : 여러 단어들로 이루어진 문장 * 코퍼스의 종류 - 단일언어 코퍼스 : 한가지 언어로 구성된 코퍼스 - 이중 언어 코퍼스 : 두개의 언어로 구성된 코퍼스 - 다중 언어 코퍼스 : 두개 이상의 언어로 구성된 코퍼스 - 병령 코퍼스 : 언어간의 쌍으로 구성된 코퍼스 ( 영문과 한글이 함께 짝을 이루는 데이터 ) 4.1.2. 전처리 과정 : 코퍼스 수집 -> 정제 -> 문장 단위 분절 -> 분절 -> 병렬 코퍼스 정렬 ( 생략 가능 ) -> 서브워드 분절 4-2. 정제 4.2.1. 전각 문자 제거 : 전각문자를 반각문자로 변환해주는 작업 필요 전각문자 : 특수문자 기호. 문자의 폭이 일반적인 영문자의 고정폭의 두배정도의 폭을 가지는 문자. 반각..
Deep Learning 02. 1. Vanilla RNN과 LSTM의 차이!? Vanilla RNN의 기울기 소실 문제로, LSTM을 많이 쓴다고 저번 포스팅에 기록을 했었다. 2020/12/20 - [DATA/ML & DL] - [Deep Learning 01 ] 순환 신경망(Recurrent Neural Network, RNN) / 순차 데이터(Sequential Data) / Vanilla Recurrent Network [Deep Learning 01 ] 순환 신경망(Recurrent Neural Network, RNN) / 순차데이터(Sequential Data) / Vanilla Recurrent Netwo Deep Learning 01. 1. 순차 데이터 ( Sequential Data )..
Deep Learning 01. 1. 순차 데이터 ( Sequential Data ) 001. 순차데이터의 개념 순차데이터 ( Sequential Data ) : 순서가 의미가 있으며, 순서가 달라지는 경우 의미가 손상되는 데이터를 의미한다. 순차 데이터 중에서, Temporal Sequence 는 시간적 의미가 있는 것을 의미한다. 그것이 일정한 시간차라면 Time Series 라고 한다. 002. 순차데이터의 Resampling Resampling 이란, Temporal Sequence를 Time Series로 변환하기 위해 수행하는 것이다. resampling을 수행하는 방법으로 1) 데이터를 보간(Interpolation)한다. 즉, 데이터를 추정하여 비어있는 시간의 사이사이를 매꾸는 작업을 한다..