"Growth" Data를 쌓아가는 사람

고정 헤더 영역

글 제목

메뉴 레이어

"Growth" Data를 쌓아가는 사람

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (67)
    • 멋사 AISCOOL 7기 Python (49)
      • INPUT (35)
      • OUTPUT(project) (1)
      • TIL (9)
    • SQL (17)
      • 멋쟁이사자7기&데이터리안 (5)
      • SQL 문제풀이 스터디 (12)
    • 데이터 분석 (1)
      • 데이터넥스트레벨2기 (1)

검색 레이어

"Growth" Data를 쌓아가는 사람

검색 영역

컨텐츠 검색

전체 글

  • 빈 날짜 채우기, 누적 합 구하기

    2022.10.28 by dundunee

  • 시각화 총정리: pandas

    2022.10.28 by dundunee

  • [PANDAS] 전처리 & EDA 총정리

    2022.10.27 by dundunee

  • [시각화] Plotly

    2022.10.27 by dundunee

  • [크롤링 & EDA] 메인 및 상세 페이지 수집 함수 만들기: 서울특별시 다산콜센터의 주요 민원

    2022.10.26 by dundunee

  • MINI-PRO1. 네이버영화 랭킹 및 평점 크롤링, 교보문고 베스트셀러 크롤링

    2022.10.04 by dundunee

  • [멋사 SQL 2day] RFM Segmentation, 테이블 피봇

    2022.10.04 by dundunee

  • [멋사 SQL 2day] 집계함수, group by, having, case when 조건문

    2022.10.04 by dundunee

빈 날짜 채우기, 누적 합 구하기

날짜 데이터를 가져올 경우 중간에 빠진 데이터가 생길 수 있다. 그 때 pd.date_range를 써서 날짜를 메꿔준다. 1. 첫 확진일과 마지막 확진일 찾기 last_day = day_cnt.index[-1] # = df["확진일"].max() #Timestamp('2021-12-26 00:00:00') first_day = day_cnt.index[0] # = df["확진일"].min() #Timestamp('2020-01-24 00:00:00') 2. date_range로 전체 기간 데이터 만들기 all_day = pd.date_range(start = first_day, end = last_day) all_day DatetimeIndex(['2020-01-24', '2020-01-25', '202..

멋사 AISCOOL 7기 Python/INPUT 2022. 10. 28. 00:34

시각화 총정리: pandas

A. 판다스 API를 이용한 시각화 - 수치형 변수 1. 전체 수치변수에 대한 히스토그램 df.hist(bins=100, figsize=(12,8)) plt.show() 2. line year_month = df["연도월"].value_counts().sort_index(ascending=True) year_month.plot() 선 추가 day_cnt = df["확진일"].value_counts().sort_index() day_cnt.plot(title="일자별 확진수", figsize=(10, 3)) plt.axhline(1500, c="r", lw = 0.5, ls = "--") #1500에서, c: 색깔, lw: 선굵기, ls:선스타일 3. area year_month.area() 4. bar ..

멋사 AISCOOL 7기 Python/INPUT 2022. 10. 28. 00:27

[PANDAS] 전처리 & EDA 총정리

A. 데이터 불러오기 1. 라이브러리 로드하기 import pandas as pd import numpy as np import matplotlib.pyplot as plt 2. 파일 불러오기 from glob import glob file_name = glob("seoul*.csv") #seoul로 시작하는 csv 파일을 찾아달라는 의미 # 파일 변수에 담기 df = pd.read_csv(file_name, encoding="cp949") B. 데이터 확인 및 요약하기 # 데이터 형태 보기 df.shape # 데이터 일부만 확인하기 df.head() df.tail() df.sample() # 컬럼별 타입 확인하기 df.dtypes # 데이터 유일값 확인하기 df[columns].unique() # 컬럼..

멋사 AISCOOL 7기 Python/INPUT 2022. 10. 27. 17:37

[시각화] Plotly

plotly는 파이썬의 대표적인 인터랙티브 시각화도구이다. Plotly는 개인 및 공동 작업을 위한 온라인 그래프 작성, 분석 및 통계 도구와 Python , R, MATLAB, Perl, Julia, Arduino 및 REST 용 과학 그래프 라이브러리를 제공한다. Plotly Express: high-level interface for data visualization seaborn과 사용법이 비슷하며, plotly.graph_objectc에 비해 비교적 간단한 편이다. 가장 큰 장점은 한글폰트 설정이 따로 필요없다는 점이며, 인터페이스만 파이썬을 사용함을 알 수 있다. import plotly.express as px scatter([data_frame, x, y, color, symbol, …])..

멋사 AISCOOL 7기 Python/INPUT 2022. 10. 27. 16:34

[크롤링 & EDA] 메인 및 상세 페이지 수집 함수 만들기: 서울특별시 다산콜센터의 주요 민원

서울특별시 120 전체 페이지 목록에 포함된 번호, 제목, 생산일, 조회수와 더불어 상세페이지에서 알 수 있는 내용번호, 내용, 분류까지 불러오는 데이터프레임을 만드는 것이 목적이다. step1. 라이브러리로드 import pandas as pd import numpy as np import requests from bs4 import BeautifulSoup as bs import time from pandas.io.pytables import TableIterator from tqdm.notebook import tqdm step2. 메인페이지(목록 + 상세페이지로 이동가능한 내용번호가 포함된)를 불러오는 함수 def get_one_page(page_no): #1: page_no 마다 url이 변경되..

멋사 AISCOOL 7기 Python/INPUT 2022. 10. 26. 22:43

MINI-PRO1. 네이버영화 랭킹 및 평점 크롤링, 교보문고 베스트셀러 크롤링

1. 네이버영화 랭킹 및 평점 크롤링 라이브러리로드 import pandas as pd import numpy as np import requests from datetime import datetime, timedelta 네이버 영화 랭킹 페이지 살펴보기 랭킹은 모두 3가지 타입으로 나타나 있으며, 각각의 URL을 살펴본 결과 찾은 특징은 다음과 같다. 조회순 https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cnt&date=20220928 평점순(현재상영) https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cur&date=20220928 평점순(모든영화) https://movie.naver.com/mo..

멋사 AISCOOL 7기 Python/OUTPUT(project) 2022. 10. 4. 22:25

[멋사 SQL 2day] RFM Segmentation, 테이블 피봇

# RFM Segmentation 고객 세분화 모형 중 실무에서 자주 사용하는 모형이다. Recency: 얼마나 최근에 구매했는지 Frequency: 얼마나 자주 구매했는지 Monetary: 얼마나 많은 금액을 구매했는지 RFM segmentation은 RFM각 항목의 값을 기준으로 고객을 분류하는 방법이다. 단계를 나누는 기준은 서비스의 특정에 따라 다르게 정할 수 있다. 예를 들어 자주 일어나지 않는 이벤트(결혼, 채용 등)를 다루는 서비스의 경우 Recenct만점 기준을 길게 잡아야 할 수도 있고, 큰 의미가 없을 수도 있다. 보통 CRM 마케팅에 많이 사용된다. 보통 RFM으로 고객군을 나눌때에는 우리 서비스에 충성도가 높은 그룹과 낮은 그룹을 찾고, 리소스를 투입했을 때 비교적 성과가 좋을 것 ..

SQL/멋쟁이사자7기&데이터리안 2022. 10. 4. 21:45

[멋사 SQL 2day] 집계함수, group by, having, case when 조건문

# 집계함수 요약통계를 출력함 Count(*) Count(column): null값 빼고 집계 Count(distinct column): 중복값, null값 제외 sum(숫자 데이터를 가진 column) avg(숫자 데이터를 가진 column) 만약 column에 null 이 있다면 avg()와 sum()/count(*)의 값이 달라짐, 이럴경우 null값은 0으로 처리됨 min() max() # Group by, Having Group by 집계함수가 select절에 쓰인다면 집계함수가 쓰이지 않는 컬럼은 반드시 group by에 있어야 한다. 컬럼명 대신 select절에 작성한 번호(순서)를 써줘도 된다 having select절에 들어간 집계함수에 대한 조건을 걸어줄 때 사용한다. where절과 같..

SQL/멋쟁이사자7기&데이터리안 2022. 10. 4. 21:25

추가 정보

인기글

최신글

페이징

이전
1 ··· 4 5 6 7 8 9
다음
TISTORY
"Growth" Data를 쌓아가는 사람 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바