일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 서브쿼리
- GRU
- 짝수
- 카이제곱분포
- NLP
- 그룹바이
- 표준편차
- 자연어 논문 리뷰
- torch
- CASE
- 자연어 논문
- nlp논문
- Statistics
- SQL코테
- airflow
- MySQL
- HackerRank
- sql
- update
- Window Function
- 코딩테스트
- sigmoid
- LSTM
- t분포
- 자연어처리
- 설명의무
- SQL 날짜 데이터
- 논문리뷰
- inner join
- leetcode
- Today
- Total
목록전체 글 (108)
HAZEL
린분석 : 스타트업이 지향해야 하는 목표를 추적하기 위해서 알아야 하는 지표에 관한 내용 린분석을 읽고 정리한 내용입니다. CHAPTER 1. 우리는 모두 거짓말쟁이 직감은 영감을 준다. 직감은 중요하다. 단, 직감을 테스트할 필요는 있다. 직감이 실험이라면 데이터는 증거다. 제품이나 기능을 구현한 후에 효과를 측정하고 거기에서 교훈을 얻은 다음 더 좋은 제품을 구축할 수 있게 되었다. 경영학의 대가 피터 드러커는 “측정할 수 없는 것은 관리할 수 없다”라는 유명한 말을 남겼다. CHAPTER 2. 다양한 지표 분석의 본질은 사업에서 매우 중요한 지표를 추적하는 것이다. 좋은 지표란 어떤 것인가 좋은 지표의 특징 좋은 지표는 상대적이다.지난 주보다 전환율이 증가했다’ 가 ‘전환율이 2%이다’ 보다 더 좋..
세미나 주제 : 데이터 실험 문화의 핵심 : A/B 테스트 주최 : 월간 데이터리안 일시 : 2022.11.08 화 7시-9시 세미나 자료 ( 아래 이미지 출처 ) : https://www.datarian.io/blog/slide-webinar-nov 당근마켓 기술 블로그 직관만 믿고 까물었다가 망한 PM의 사연 알아두면 쓸데있는 잡다한 A/B테스트 이야기 1. 직관만 믿고 까물었다가 망한 PM의 사연 참고 : 당근마켓 기술 블로그 A/B 테스트 없이 '키워드 알림 등록 버튼을 변경하는 기획 진행 당근마켓 ( 중고거래 특성상 ) 원하는 매물을 찾기까지 유저가 많은 탐색을 하는 특성을 가지고 있으며, 일반 유저들이 글을 쓰기 때문에 제목 또한 불친절합니다. 그래서 검색관점에서 난이도가 높은 도메인입니다. ..
데이터를 다루기 위해, 여러 변수를 만지다 보면, groupby가 굉장히 유용하다는 것을 느낀다. 그래서, 기초부터 응용 버전까지 한 번에 정리하려고 한다. 0. Groupby 란, SQL groupby 명령어와 같은 느낌인데, 데이터를 split -> apply -> combine 하는 과정을 거쳐서 연산한다. 아래에서 다양한, 그룹바이 예시를 하기 위해서 데이터 프레임을 만들어 준다. 1. groupby를 하는 방법 : 기본적인 groupby 01. 한개 열을 기준으로 groupby : 집계 그룹바이는, 그룹 바이만 하면 안 되고, 집계 함수를 같이 써주어야 내가 원하는 데이터 프레임 형태가 된다. 묶어 주고 싶은 컬럼을 by = [' col ' ] 넣어주면 된다. by는 생략해도 된다. 아래 코드는..
Chapter 03 : Sequence : 요소가 연속적으로 나열되어있는 자료형 - 자료가 담겨있는 갯수 1 ) 컨테이너 형 ( container ) : 서로 다른 자료형을 담는다. ex, list, tuple , collections.deque 2 ) 플랫형 ( flat ) : 단일 자료형만 담는다. 한개의 자료형 ex, str, bytes , bytearray , array.array , memoryview - 가변형 / 불변형 1 ) 가변형 : list, bytearray , array.array , memoryview , deque 2 ) 불변형 : tuple, str , bytes 1. List : 수정가능한, 자료형 chars = 'abcdefg' list1 = [] for s in chars..
- 문제 설명 ANIMAL_OUTS 테이블은 동물 보호소에서 입양 보낸 동물의 정보를 담은 테이블입니다. ANIMAL_OUTS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, NAME, SEX_UPON_OUTCOME는 각각 동물의 아이디, 생물 종, 입양일, 이름, 성별 및 중성화 여부를 나타냅니다. NAMETYPENULLABLE ANIMAL_ID VARCHAR(N) FALSE ANIMAL_TYPE VARCHAR(N) FALSE DATETIME DATETIME FALSE NAME VARCHAR(N) TRUE SEX_UPON_OUTCOME VARCHAR(N) FALSE 보호소에서는 몇 시에 입양이 가장 활발하게 일어나는지 알아보려 합니다. 0시부터 23시까지, 각..
상황 아래 데이터와 같이, 데이터프레임의 각 값에는 딕셔너리로 들어가 있다. 딕셔너리 데이터 중, user_seq를 뽑아서 하나의 컬럼으로 만들고 싶다. 해결 과정 1. 데이터의 형태를 좀더 깊게 보니, 딕셔너리를 형태를 " " 로 감싸져있어서, 타입이 string 이었다. 2. 따라서, 이부분을 먼저 dict형태로 변경시켜줘어야 한다. : 변경하는 방법은 json 라이브러리를 불러와서, json.loads() 를 해주는 것이다. 그러면 아래와 같이, ' ' 는 사라지고, 타입이 dict 로 변하게 된다. 3. 이때, dict 여서, 단순히 아래와 같이 코드를 짜면, 에러가 발생하게 된다. data['af_user_seq'] 위와 같이, 분명이 딕셔너리 keys 에는 존재하는데, 없다고 뜬다.. 이 부분..
1. 스케쥴링 개념 Airflow 에서 start_date / execute_date 는 매우 헷갈리는 개념이다. start_date : DAG 스케쥴이 시작되는 시간(날짜) execution_date : 스케쥴을 한시간에 한번이라면, DAG 실행 한시간 전에 대한 시간 모든 문서에서 보면, execution_date를 date로 받아들이지 말고, dag 의 고유 실행 id 로 받아들이라고 한다. 그런 의미에서, 추후에 backfill 을 하더라도, 즉 나중에 해당 dag를 다시 실행하더라도 execution_date는 그대로 유지 된다. 2. 스케쥴링 테스트 1. catchup = False , schedule_interval = '*/15 * * * *' code dag = DAG( dag_id='d..
aws 서비스에서, 데이터를 insert 가 아닌, dataframe으로 한번에 넣는 방법으로 'awswrangler' 모듈이 존재한다. 만약, awswrangler 를 사용하지 않는다면, 아래와 같이, insert into 구문을 사용해야 하며, 많은 데이터를 넣기 위해서는 for 문을 해야하는 매우 비 효율적인 방식을 사용해야한다. cur = get_Redshift_connection() sql = "BEGIN; DELETE FROM {schema}.{table};".format(schema=schema, table=table) sql += f"""INSERT INTO {schema}.{table} VALUES ( '2022-01-01', 1);""" sql += "END;" cur.execute(s..
파이썬 코드로, s3에 있는 대용량 데이터를 가져오는 코드 aws에서 iam에서 만들기 # 필요한 모듈 import import boto3 2. s3에 접근 : 같은 vpc 나 보안 그룹에 포함되어있는 aws 서버에서는 aws_key 를 입력하지 않아도 되지만, 로컬에서 작업하기 위해서는 아래와 같이 키를 넣어줘야한다. 관련 키 만드는 부분은 다른 글에 정리할 예정이다. # s3 에 접근하기 위해서 코드 작성 s3 = boto3.client('s3' ,aws_access_key_id='aws에서 iam에서 만들기' ,aws_secret_access_key='aws에서 iam에서 만들기') 3. 데이터 가져오기 : 그냥 몇개 가져오도록 작업할 수 있지만, 한번에 1000개씩이 아닌, 많은 데이터를 가져오기..
에러 코드 Traceback (most recent call last): File "/tmp/pycharm_project_578/main.py", line 115, in main() File "/tmp/pycharm_project_578/main.py", line 95, in main pv = user_action_df.select(col('metaData.responseTotalCount')) File "/usr/lib/spark/python/pyspark/sql/dataframe.py", line 1320, in select jdf = self._jdf.select(self._jcols(*cols)) File "/usr/lib/spark/python/lib/py4j-src.zip/py4j/java_g..