일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- LSTM
- SQL 날짜 데이터
- 자연어 논문 리뷰
- inner join
- SQL코테
- sigmoid
- GRU
- 짝수
- torch
- 자연어처리
- NLP
- sql
- 설명의무
- MySQL
- CASE
- Statistics
- 논문리뷰
- HackerRank
- update
- 코딩테스트
- leetcode
- 표준편차
- 그룹바이
- Window Function
- t분포
- nlp논문
- 서브쿼리
- airflow
- 자연어 논문
- 카이제곱분포
- Today
- Total
목록DATA ANALYSIS (78)
HAZEL

1. African Cities >> 문제 Given the CITY and COUNTRY tables, query the names of all cities where the CONTINENT is 'Africa'. Note: CITY.CountryCode and COUNTRY.Code are matching key columns. Input Format The CITY and COUNTRY tables are described as follows: >> 문제 푼 코드 select city.NAME from city INNER JOIN COUNTRY ON CITY.CountryCode = COUNTRY.CODE WHERE COUNTRY.CONTINENT = 'Africa' www.hackerrank.c..

Top Earners >> 문제 We define an employee's total earnings to be their monthly salary x months worked, and the maximum total earnings to be the maximum total earnings for any employee in the Employee table. Write a query to find the maximum total earnings for all employees as well as the total number of employees who have maximum total earnings. Then print these values as space-separated integers...

1. Type of Triangle >> 문제 Write a query identifying the type of each record in the TRIANGLES table using its three side lengths. Output one of the following statements for each record in the table: Equilateral: It's a triangle with sides of equal length. Isosceles: It's a triangle with sides of equal length. Scalene: It's a triangle with sides of differing lengths. Not A Triangle: The given valu..

Deep Learning 02. 경사하강 학습법 1. 모델을 학습하기 위한 기본적인 용어 1.1. 학습 매개변수 ( Trainable Parameters ) : 학습 과정에서 값이 변화하는 매개변수 : 매개변수가 변화하면서, 알고리즘 출력이 변화됨. : y = ax + b 일때, a 와 b를 의미함 , 즉, 가중치 W와 편향 b 1.2. 손실함수 ( Loss Function) : 실제값과 예측값의 차이를 수치화 해주는 함수 : 실행하고 있는 학습 알고리즘이 얼마나 잘못하고 있는지를 나타내는 지표 : 지표의 값이 낮을수록 즉, 손실이 낮을 수록 학습이 잘 됬다는 것을 의미함. : 정답과 알고리즘 출력을 비교하면서 손실을 구함. -> 어떤 손실함수를 사용하냐에 따라서 학습이 어떻게 이루어지는지 결정됨 1.2..

Deep Learning 01. 얕은 신경망의 구조 1. 인공 신경망 ( Artificial Neural Network ) 1.1. 신경 세포(뉴런) : 여러 신호를 받아, 하나의 신호를 만들어 전달하는 역할. 출력을 내기전에 활성 함수(activation function)을 통해 비선형 특성을 가할 수 있다. 앞 단계에서는 linear한 연산만 가능한데, 활성화 함수를 통해 비선형 특성을 가할 수 있게 된다. : node는 단일 뉴런 연산 , edge는 뉴런의 연결성의 의미한다. : 활성화 함수의 특징은 선형 함수가 아닌 비선형 함수여야 한다는 것이다. -> 입력이 들어오면, 각 입력에 가중치가 곱해지고 그것을 다 더한 후, 활성화 함수를 통과하는 과정을 거친다. : 편향이 없다면, 뉴런이 표현할 수 ..

시계열 데이터를 만지다 보면, 자연스럽게 datetime 으로 datatype을 바꾸고 다양하게 이용한다. 항상 헷갈리고 까먹기 때문에, 블로그에 정리하려고 한다! 1. int(str) -> Datetime 으로 변환하기 변환하는 방법은 크게 두가지가 있다. 1. pandas 함수를 이용하기. 2. datetime 함수를 이용하기. 0.0. 데이터 불러오기 : 데이터 타임으로 바꿀 데이터를 불러온다. : 나는 int 로 되어있는 데이터를 가지고 왔다. - 데이콘 공모전에서 얻은 데이터를 time 데이터만 따로 저장해서 가져왔다. import pandas as pd data = pd.read_csv('datatime_exa.csv') data.info() RangeIndex: 5429 entries, 0 ..

8장. 텍스트 분류 ( text classification ) 8.1. 텍스트 분류? - 텍스트 분류란, 텍스트 / 문장 또는 문서를 입력으로 받아 사전에 정의된 클래스 중에서 어디에 속하는지 분류하는 과정 : 딥러닝 전, 나이브 베이지 분류 ( Naive Bayes classification ), SVM(support-vector machine) 등 존재함 8.2. 나이브 베이즈 : 나이브 베이즈는 간단하지만, 매우 강력한 분류 방식. 단어를 불연속적인 심볼로 다루는 만큼 아쉬운 부분도 존재함 나이브 베이즈를 이해하기 위해서는, 베이즈 정리를 이해해야 하기 때문에, 아래에 먼저 베이즈 정리를 다루겠음. 8.2.1. Bayesian Theorem ( 베이즈 정리 ) : 데이터 D가 주어졌을때, 각 클래스..

7장 시퀀스 모델링 부분은 예전에 DL을 공부하고 정리한 파트와 유사함. 2020/12/20 - [DATA/ML & DL] - [Deep Learning 01 ] 순환 신경망(Recurrent Neural Network, RNN) / 순차데이터(Sequential Data) / Vanilla Recurrent Network 2020/12/21 - [DATA/ML & DL] - [Deep Learning 02 ] LSTM ( Long Short - Term Memory ) 2020/12/26 - [DATA/ML & DL] - [Deep Learning 03 ] GRU ( Gated Recurrent Unit ) 7장. 시퀀스 모델링 시퀀스 모델링 ( sequential modeling ) : 시간 개념 또..

6장. 단어 임베딩 6.1. 차원 축소 ( Dimensionality Reduction ) 앞에서 배운 내용으로 단어는 모호성을 가짐을 알 수 이었다. 이런 특징 때문에, 자연어 처리에서 단어나 문장, 문서를 벡터로 나타내는 것은 중요하다. 즉, 사람이 사용하는 자연어의 형태와 컴퓨터가 이해하는 벡터로 변환이 가능한 함수 또는 맵핑 테이블을 만들어내는 과정이 중요하다. 하지만, 높은 차원으로 데이터를 표현하면, 희소성 문제가 발생하는 것을 알 수 있다. 또한 차원이 증가하면, 그걸 처리하기 위한 데이터량이 증가하는 차원의 저주에 걸릴 수 도 있다. 따라서, 차원 축소를 통해 더 낮은 차원으로 사용하는 것이 중요하다. 차원축소 ( Dimensionality Reduction ) 이란, 데이터의 의미를 제대..

5장. 유사성과 모호성 5-6 . 특징 벡터 만들기 5.6.1. TF 행렬 만들기 TF : 단어의 문서별 출현 횟수 -> 공부의 특징 벡터 : [0,0,1] 한계점 - 문서가 적으면, 특징 벡터를 구성했다고 하기엔 무리가 존재함. 그러나 너무 많으면 지나치게 많은 차원이 생김 - 희소벡터가 될 수 있음 ( 벡터의 극히 일부분만 의미있는 값, 나머지는 0으로 채워진 벡터 ) -> 특정 통계를 얻는데 걸림돌 이 될 수 있음 5.6.2. 컨텍스트 윈도우로 함께 출현한 단어들의 정보 활용 ( Based on Context Window ( Co- occurrence ) ) - 윈도우 기반 동시 등장 행렬 - 단어별로 윈도우 내에 속해 있는 이웃 단어들의 출현 빈도를 세어 행렬로 나타내는 것 - window siz..