일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 짝수
- 설명의무
- leetcode
- 자연어 논문 리뷰
- NLP
- update
- sigmoid
- 자연어처리
- 카이제곱분포
- SQL 날짜 데이터
- HackerRank
- 논문리뷰
- CASE
- torch
- 코딩테스트
- 자연어 논문
- airflow
- t분포
- Statistics
- GRU
- LSTM
- 그룹바이
- nlp논문
- SQL코테
- Window Function
- MySQL
- 서브쿼리
- 표준편차
- inner join
- sql
- Today
- Total
목록DATA ENGINEERING (5)
HAZEL
1. 스케쥴링 개념 Airflow 에서 start_date / execute_date 는 매우 헷갈리는 개념이다. start_date : DAG 스케쥴이 시작되는 시간(날짜) execution_date : 스케쥴을 한시간에 한번이라면, DAG 실행 한시간 전에 대한 시간 모든 문서에서 보면, execution_date를 date로 받아들이지 말고, dag 의 고유 실행 id 로 받아들이라고 한다. 그런 의미에서, 추후에 backfill 을 하더라도, 즉 나중에 해당 dag를 다시 실행하더라도 execution_date는 그대로 유지 된다. 2. 스케쥴링 테스트 1. catchup = False , schedule_interval = '*/15 * * * *' code dag = DAG( dag_id='d..
aws 서비스에서, 데이터를 insert 가 아닌, dataframe으로 한번에 넣는 방법으로 'awswrangler' 모듈이 존재한다. 만약, awswrangler 를 사용하지 않는다면, 아래와 같이, insert into 구문을 사용해야 하며, 많은 데이터를 넣기 위해서는 for 문을 해야하는 매우 비 효율적인 방식을 사용해야한다. cur = get_Redshift_connection() sql = "BEGIN; DELETE FROM {schema}.{table};".format(schema=schema, table=table) sql += f"""INSERT INTO {schema}.{table} VALUES ( '2022-01-01', 1);""" sql += "END;" cur.execute(s..
파이썬 코드로, s3에 있는 대용량 데이터를 가져오는 코드 aws에서 iam에서 만들기 # 필요한 모듈 import import boto3 2. s3에 접근 : 같은 vpc 나 보안 그룹에 포함되어있는 aws 서버에서는 aws_key 를 입력하지 않아도 되지만, 로컬에서 작업하기 위해서는 아래와 같이 키를 넣어줘야한다. 관련 키 만드는 부분은 다른 글에 정리할 예정이다. # s3 에 접근하기 위해서 코드 작성 s3 = boto3.client('s3' ,aws_access_key_id='aws에서 iam에서 만들기' ,aws_secret_access_key='aws에서 iam에서 만들기') 3. 데이터 가져오기 : 그냥 몇개 가져오도록 작업할 수 있지만, 한번에 1000개씩이 아닌, 많은 데이터를 가져오기..
01. Elasticsearch란? : Elasticsearch 는 Apache Lucene( 아파치 루씬 ) 기반의 Java 오픈 소스 분산 검색 엔진 방대한 양의 데이터를 신속하게 거의 실시간 ( NRT, Near Real Time ) 으로 저장, 검색, 분석할 수 있다. - Elasticsearch ****를 이용하기 위한, 인터페이스 : Kibana ( 호환을 위해 Elasticsearch 와 같은 버전 다운 ) ** 인터페이스 : 인터페이스는 서로 다른 두 개의 시스템, 장치 사이에서 정보나 신호를 주고받는 경우의 접점이나 경계면이다. 즉, 사용자가 기기를 쉽게 동작시키는데 도움을 주는 시스템을 의미한다. : Elasticsearch 는 데이터 저장 형식으로 json 사용함. 02. Elasti..
개발환경구성의 목표 : 1. 개인용 PC 1대에 가상 머신 3대를 만들어서 빅데이터 분산 환경을 만든다. 2. 그 위에 필요한 빅데이터 컴포넌트들을 추가, 확장 한다. * 하둡을 공부하기 위한 목적 하둡이란, : 아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는프리웨어자바소프트웨어 프레임워크이다. 01. 설치하기. 빅데이터 PC환경을 구성하기 위해서, 001번부터 008번까지의 모든 것이 설치 되어야 한다... 8가지는 기본사항이고, 더 설치해야 할것도 있다. .... ( 설치가 제일 싫다.. ) 001. 자바 설치 자바는..