일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- sigmoid
- 자연어처리
- sql
- nlp논문
- NLP
- update
- CASE
- 설명의무
- 자연어 논문 리뷰
- 표준편차
- 카이제곱분포
- Statistics
- t분포
- SQL 날짜 데이터
- GRU
- 논문리뷰
- 자연어 논문
- torch
- inner join
- SQL코테
- 코딩테스트
- 서브쿼리
- Window Function
- LSTM
- HackerRank
- 짝수
- 그룹바이
- airflow
- MySQL
- leetcode
- Today
- Total
목록DATA ANALYSIS/Python with Data (3)
HAZEL
데이터를 다루기 위해, 여러 변수를 만지다 보면, groupby가 굉장히 유용하다는 것을 느낀다. 그래서, 기초부터 응용 버전까지 한 번에 정리하려고 한다. 0. Groupby 란, SQL groupby 명령어와 같은 느낌인데, 데이터를 split -> apply -> combine 하는 과정을 거쳐서 연산한다. 아래에서 다양한, 그룹바이 예시를 하기 위해서 데이터 프레임을 만들어 준다. 1. groupby를 하는 방법 : 기본적인 groupby 01. 한개 열을 기준으로 groupby : 집계 그룹바이는, 그룹 바이만 하면 안 되고, 집계 함수를 같이 써주어야 내가 원하는 데이터 프레임 형태가 된다. 묶어 주고 싶은 컬럼을 by = [' col ' ] 넣어주면 된다. by는 생략해도 된다. 아래 코드는..
상황 아래 데이터와 같이, 데이터프레임의 각 값에는 딕셔너리로 들어가 있다. 딕셔너리 데이터 중, user_seq를 뽑아서 하나의 컬럼으로 만들고 싶다. 해결 과정 1. 데이터의 형태를 좀더 깊게 보니, 딕셔너리를 형태를 " " 로 감싸져있어서, 타입이 string 이었다. 2. 따라서, 이부분을 먼저 dict형태로 변경시켜줘어야 한다. : 변경하는 방법은 json 라이브러리를 불러와서, json.loads() 를 해주는 것이다. 그러면 아래와 같이, ' ' 는 사라지고, 타입이 dict 로 변하게 된다. 3. 이때, dict 여서, 단순히 아래와 같이 코드를 짜면, 에러가 발생하게 된다. data['af_user_seq'] 위와 같이, 분명이 딕셔너리 keys 에는 존재하는데, 없다고 뜬다.. 이 부분..
시계열 데이터를 만지다 보면, 자연스럽게 datetime 으로 datatype을 바꾸고 다양하게 이용한다. 항상 헷갈리고 까먹기 때문에, 블로그에 정리하려고 한다! 1. int(str) -> Datetime 으로 변환하기 변환하는 방법은 크게 두가지가 있다. 1. pandas 함수를 이용하기. 2. datetime 함수를 이용하기. 0.0. 데이터 불러오기 : 데이터 타임으로 바꿀 데이터를 불러온다. : 나는 int 로 되어있는 데이터를 가지고 왔다. - 데이콘 공모전에서 얻은 데이터를 time 데이터만 따로 저장해서 가져왔다. import pandas as pd data = pd.read_csv('datatime_exa.csv') data.info() RangeIndex: 5429 entries, 0 ..