일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- update
- 그룹바이
- Statistics
- NLP
- Window Function
- MySQL
- HackerRank
- inner join
- torch
- LSTM
- nlp논문
- GRU
- SQL 날짜 데이터
- CASE
- 논문리뷰
- sql
- 표준편차
- 자연어 논문 리뷰
- SQL코테
- 카이제곱분포
- t분포
- 서브쿼리
- 코딩테스트
- 설명의무
- 자연어처리
- leetcode
- 짝수
- 자연어 논문
- sigmoid
- airflow
- Today
- Total
목록DATA ANALYSIS/NLP (11)
HAZEL
11장. 신경망 기계번역 11.1. 다국어 신경망 번역 11.1.1. 제로샷 학습 ( zero-shot learning ) : 논문 - Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation Melvin Johnson∗ , Mike Schuster∗ , Quoc V. Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda Viégas, Martin Wattenberg, Greg Corrado, Macduff Hughes, Jeffrey Dean Google www.aclweb.org/anthology/Q17-1024.pdf * 특징 : 여..
10장. 기계 번역 ( machine translation : MT ) 10.5. Teacher forcing : 교사 강요 ( Teacher forcing ) : Target word를 디코더의 다음 입력으로 넣어주는 기법 ※ 저번 10장 포스팅에서, 디코더 부분에서 teacher forcing 을 하는 것을 이야기 한 적이 있었다. 이번 포스팅에서는 조금 더 자세하게 다루도록 하겠다. 2021/02/17 - [DATA/NLP] - [ NLP : CH10. 기계 번역 ] seq2seq, attention , Input Feeding [ NLP : CH10. 기계 번역 ] seq2seq, attention , Input Feeding ※ 미완성 : 추가적으로 학습한 후, 다시 정리하기. 10장. 기계 번..
※ 미완성 : 추가적으로 학습한 후, 다시 정리하기. 10장. 기계 번역 ( machine translation : MT ) 10.1. 번역의 목표 : 문장이 주어졌을 때, 가능한 다른 언어의 번역 문장중 최대 확률을 갖는 문장을 찾아내는 것 10.1.1. 기계번역의 역사 1) 규칙 기반 기계 번역 ( RBMT ) : 인간이 언어를 학습하는 방식과 비슷한 전통적인 번역 방식임. 문장을 분석하고 규칙을 세워 번역하는 것 : 통계 기반에 비해 자연스러운 번역이 가능하지만, 모든 규칙을 만들어줘야하므로, 자원과 시간이 많이 소모됨. 2) 통계 기반 번역 ( SMT ) : 대량의 양뱡향 코퍼스에서 통계를 얻어내 번역 시스템을 구성하는 것 3) 딥러닝 이전의 신경망 기계 번역 ( NMT ) : 인코더 - 디코더의..
8장. 텍스트 분류 ( text classification ) 8.1. 텍스트 분류? - 텍스트 분류란, 텍스트 / 문장 또는 문서를 입력으로 받아 사전에 정의된 클래스 중에서 어디에 속하는지 분류하는 과정 : 딥러닝 전, 나이브 베이지 분류 ( Naive Bayes classification ), SVM(support-vector machine) 등 존재함 8.2. 나이브 베이즈 : 나이브 베이즈는 간단하지만, 매우 강력한 분류 방식. 단어를 불연속적인 심볼로 다루는 만큼 아쉬운 부분도 존재함 나이브 베이즈를 이해하기 위해서는, 베이즈 정리를 이해해야 하기 때문에, 아래에 먼저 베이즈 정리를 다루겠음. 8.2.1. Bayesian Theorem ( 베이즈 정리 ) : 데이터 D가 주어졌을때, 각 클래스..
7장 시퀀스 모델링 부분은 예전에 DL을 공부하고 정리한 파트와 유사함. 2020/12/20 - [DATA/ML & DL] - [Deep Learning 01 ] 순환 신경망(Recurrent Neural Network, RNN) / 순차데이터(Sequential Data) / Vanilla Recurrent Network 2020/12/21 - [DATA/ML & DL] - [Deep Learning 02 ] LSTM ( Long Short - Term Memory ) 2020/12/26 - [DATA/ML & DL] - [Deep Learning 03 ] GRU ( Gated Recurrent Unit ) 7장. 시퀀스 모델링 시퀀스 모델링 ( sequential modeling ) : 시간 개념 또..
6장. 단어 임베딩 6.1. 차원 축소 ( Dimensionality Reduction ) 앞에서 배운 내용으로 단어는 모호성을 가짐을 알 수 이었다. 이런 특징 때문에, 자연어 처리에서 단어나 문장, 문서를 벡터로 나타내는 것은 중요하다. 즉, 사람이 사용하는 자연어의 형태와 컴퓨터가 이해하는 벡터로 변환이 가능한 함수 또는 맵핑 테이블을 만들어내는 과정이 중요하다. 하지만, 높은 차원으로 데이터를 표현하면, 희소성 문제가 발생하는 것을 알 수 있다. 또한 차원이 증가하면, 그걸 처리하기 위한 데이터량이 증가하는 차원의 저주에 걸릴 수 도 있다. 따라서, 차원 축소를 통해 더 낮은 차원으로 사용하는 것이 중요하다. 차원축소 ( Dimensionality Reduction ) 이란, 데이터의 의미를 제대..
5장. 유사성과 모호성 5-6 . 특징 벡터 만들기 5.6.1. TF 행렬 만들기 TF : 단어의 문서별 출현 횟수 -> 공부의 특징 벡터 : [0,0,1] 한계점 - 문서가 적으면, 특징 벡터를 구성했다고 하기엔 무리가 존재함. 그러나 너무 많으면 지나치게 많은 차원이 생김 - 희소벡터가 될 수 있음 ( 벡터의 극히 일부분만 의미있는 값, 나머지는 0으로 채워진 벡터 ) -> 특정 통계를 얻는데 걸림돌 이 될 수 있음 5.6.2. 컨텍스트 윈도우로 함께 출현한 단어들의 정보 활용 ( Based on Context Window ( Co- occurrence ) ) - 윈도우 기반 동시 등장 행렬 - 단어별로 윈도우 내에 속해 있는 이웃 단어들의 출현 빈도를 세어 행렬로 나타내는 것 - window siz..
5장. 유사성과 모호성 5-1. 단어의 의미 5.1.1. 단어와 의미의 관계 표제어 : 겉으로 보이는 단어의 형태 - 같은 형태이지만, 다른 의미로 쓰이는 단어가 존재. 사람들은 주변정보에 따라 의미를 파악함 - 주변정보가 부족하여 모호성이 증가하면, 사람이여도 해석이 실패함. 중의성 문제 : 한가지 형태의 단어에 여러 의미가 포함되어 생기는 문제. - 기계 번역에서 단어의 의미에 따라 해당 번역 단어의 형태가 완전히 바뀌기 때문에 중요 -> 겉으로 보이는 형태의 매개체를 이해하고 내부의 다양한 의미로 변환하여 사용하여야 함 5.1.2. 동형어와 다의어 동형어 : 형태는 같으나 뜻이 다른 단어, 아예 어원이 다른 의미들이 같은 형태를 띄고 있는 것 다의어 : 한 형태의 단어가 여러의미를 가지지만, 그 의..
4장. 전처리 4-1. 전처리 4.1.1. 코퍼스 ( 말뭉치 ) : 여러 단어들로 이루어진 문장 * 코퍼스의 종류 - 단일언어 코퍼스 : 한가지 언어로 구성된 코퍼스 - 이중 언어 코퍼스 : 두개의 언어로 구성된 코퍼스 - 다중 언어 코퍼스 : 두개 이상의 언어로 구성된 코퍼스 - 병령 코퍼스 : 언어간의 쌍으로 구성된 코퍼스 ( 영문과 한글이 함께 짝을 이루는 데이터 ) 4.1.2. 전처리 과정 : 코퍼스 수집 -> 정제 -> 문장 단위 분절 -> 분절 -> 병렬 코퍼스 정렬 ( 생략 가능 ) -> 서브워드 분절 4-2. 정제 4.2.1. 전각 문자 제거 : 전각문자를 반각문자로 변환해주는 작업 필요 전각문자 : 특수문자 기호. 문자의 폭이 일반적인 영문자의 고정폭의 두배정도의 폭을 가지는 문자. 반각..
3장. 파이토치 3-1. 딥러닝 시작하기 전에 부품 요약 최소 권장 CPU 코어 개수보다 단일 클럭이 높아야 한다. i5 i7 RAM 메모리는 많을 수록 좋다 16GB 64GB GPU 메모리가 클수록 좋다. 하지만 메로리가 크면 비싸다. GTX 1060Ti RTX 2080Ti 파워서플라이 비싸고 검증된 브랜드를 선택하기 GPU개당 500W - 쿨링 중요하다. - - 3-2. 파이토치 설치하기 0 ] 아나콘다를 설치한 후, 파이썬 버전을 확인하기 1 ] 파이토치 홈페이지에 들어가기 -> 설치 버튼(install)을 누르기. https://pytorch.org/ PyTorch An open source deep learning platform that provides a seamless path from r..