"Growth" Data를 쌓아가는 사람

고정 헤더 영역

글 제목

메뉴 레이어

"Growth" Data를 쌓아가는 사람

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (67)
    • 멋사 AISCOOL 7기 Python (49)
      • INPUT (35)
      • OUTPUT(project) (1)
      • TIL (9)
    • SQL (17)
      • 멋쟁이사자7기&데이터리안 (5)
      • SQL 문제풀이 스터디 (12)
    • 데이터 분석 (1)
      • 데이터넥스트레벨2기 (1)

검색 레이어

"Growth" Data를 쌓아가는 사람

검색 영역

컨텐츠 검색

전체 글

  • [멋사 SQL 1day] select, where, order by, 연산자

    2022.09.29 by dundunee

  • [크롤링] requests, BeautifulSoup, Json

    2022.09.29 by dundunee

  • [크롤링] FinanceDataReader, 네이버금융 뉴스기사 크롤링

    2022.09.28 by dundunee

  • [EDA] 범주형데이터 기술통계 및 시각화

    2022.09.28 by dundunee

  • [EDA] 추상화된 도구로 기술통계량 구하기, 수치형변수 시각화, 상관분석 및 상삼각으로 시각화

    2022.09.28 by dundunee

  • 1주차 과제 뒷풀이: 인덱싱은 리스트나 문자열만!

    2022.09.22 by dundunee

  • 앤스컴 콰르텟

    2022.09.22 by dundunee

  • [시각화] Seaborn

    2022.09.22 by dundunee

[멋사 SQL 1day] select, where, order by, 연산자

#SQL이란? SQL(Structured Query Language)은 관계형 데이터베이스를 조작하기 위한 언어 # select # 연산자 1. 비교 연산자 특정 컬럼이 특정 값을 가지는 데이터만 불러오기 위해 사용함 =, , >, = , < = 문자도 비교 가능 문자도 비교 가능 2. 논리연산자 AND, OR 비교연산자를 이어줌, 조건을 이어줌 3. Where절에 들어가는 연산자 like ‘% %’ in ( ) between A and B IS NULL, NOT NULL +LIKE심화 : %는 와일드카드다, 어떤 값이 와도 상관없음을 의미 # 정렬하기: order by 맨 마지막줄에 order by 위치함 기본값은 오름차순(asc), 내림차순정렬은 (desc) select - from - where -..

SQL/멋쟁이사자7기&데이터리안 2022. 9. 29. 17:16

[크롤링] requests, BeautifulSoup, Json

# 웹 데이터를 수집하는 방법 Web Scraping vs API 데이터 수집 과정은 reverse engineering 과정이다 # 네이버 금융 개별 종목 수집# # tqdm: 진행상황을 보여주는 라이브러리, trange라고 하면 범위내에서 진행상황을 알려줌 # pd.read_html의 오류 테이블테그가 없거나, 테이블코드가 있어도 url을 불러오지 못함 접근 권한을 막아놨기때문에, 브라우저를 정상적으로 요청하지 않았기 때문에 이런 경우 셀리니움으로 수집하기도 하나, 시간이 오래걸리는 단점이 있음. # requests 사람을 위해서 만들어진 http 통신 도구(HTTP for Humans), 크롬과 달리 소스코드만 보여줌 라이브러리, 작은 브라우저로 웹사이트를 읽어오는 목적 header에서 requet..

멋사 AISCOOL 7기 Python/INPUT 2022. 9. 29. 00:22

[크롤링] FinanceDataReader, 네이버금융 뉴스기사 크롤링

# FinanceDataReader 한국 주식 가격, 미국주식 가격, 지수, 환율, 암호화폐 가격, 종목 리스팅 등 금융 데이터 수집 라이브러리 데이터를 가져올 수 있는 방법을 제공하고 있음 !pip install -U finance-datareader import FinanceDataReader as fdr 한국거래소 상장종목 전체 가져오기 # KRX : KRX 종목 전체 df = fdr.StockListing("KRX") #요약, 기술통계, sorting등 데이터프레임형태로 가공할 수 있음 파일로 저장하고 읽어오기 # to_csv로 Dataframe을 데이터 저장용 파일인 CSV 파일로 바꿀 수 있습니다. df.to_csv("krx.csv",index = False, encoding = "cp949"..

멋사 AISCOOL 7기 Python/INPUT 2022. 9. 28. 23:34

[EDA] 범주형데이터 기술통계 및 시각화

https://seaborn.pydata.org/index.html import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt df = sns.load_dataset("mpg") # 기술통계 범주형 변수에 대한 기술통계 df.describe(include = "object") : 범주형 데이터의 경우 데이터타입이 꼭 object가 아니라 int, float, bool일 수 있음 범주형, 수치형 모두 기술통계보기 df.describe(include = "all") df.describe(exclude = “”) df.describe(exclude = "object") # = df.describe() d..

멋사 AISCOOL 7기 Python/INPUT 2022. 9. 28. 22:54

[EDA] 추상화된 도구로 기술통계량 구하기, 수치형변수 시각화, 상관분석 및 상삼각으로 시각화

import pandas as pd import numpy as np import seaborn as sns # 0.11.0 버전에서 변화가 많으니 이 버전 이상을 사용해 주세요. !pip install seaborn --upgrade # 0.11.2 #seaborn에 내장되어 있는 데이터 셋을 가져옴 df = sns.load_dataset("mpg") df.head()와 df.tail()은 iloc[:5], iloc[-5:]로 작동함 주석처리 ctrl + / # 추상화된 도구를 통한 기술통계구하기 Pandas Profiling !pip install pandas-profiling==3.1.0 from pandas_profiling import ProfileReport profile = ProfileRe..

멋사 AISCOOL 7기 Python/INPUT 2022. 9. 28. 22:26

1주차 과제 뒷풀이: 인덱싱은 리스트나 문자열만!

for i in range(1, 21): if i[-1] == 3: print("짝") else: print(i) 이렇게 출력하면 'int' object is not subscriptable 란 오류메시지가 뜨는데, 그 이유는 리스트나 어레이가 아니기 때문에 인덱싱 접근이 불가능하다는 뜻이다. 따라서 이를 해결하기위해 int(str(i)[-1]) 로 조건문을 바꿔줘야 한다. # 아래 for 문을 활용하여 위 출력과 같이 3, 6, 9에 "짝"이 출력되도록 해주세요! for i in range(1, 21): if int(str(i)[-1]) == 3: print("짝") elif int(str(i)[-1]) == 6: print("짝") elif int(str(i)[-1]) == 9: print("짝") ..

멋사 AISCOOL 7기 Python/INPUT 2022. 9. 22. 23:45

앤스컴 콰르텟

앤스컴 콰르텟(Anscombe's quartet)는 기술통계량은 유사하지만 분포나 그래프는 매우 다른 4개의 데이터셋이다. 각 데이터셋은 11개의 (x, y) 좌표로 이루어진다. 1973년, 통계학자인 프란시스 앤스컴(Francis Anscombe)이 데이터 분석 전 1) 시각화의 중요성과 2) 특이치 및 주영향관측값(influential observation)의 영향을 보여주기 위해 만들었다. 그는 "숫자 계산은 정확하지만, 그래프는 거칠다"는 통계학자들의 통념을 상쇄하기 위한 목적이었다고 설명했다. 라이브러리 로드 import pandas as pd import seaborn as sns import numpy as np 데이터 로드 github에서 제공하는 anscombe.csv 데이터를 이용하고자..

멋사 AISCOOL 7기 Python/INPUT 2022. 9. 22. 22:31

[시각화] Seaborn

# Seabon 파이썬의 데이터 시각화 라이브러리 matplotlib를 기반으로 하며, 이것의 high level version이다. #matplotlib: 파이썬의 대표적인 시각화도구 통계적 그래프 및 내부에서 통계 연산을 제공한다. *그래프의 종류 relplot : 두 가지 변수의 관계를 나타내기 위해 주로 사용 displot : 변수 하나 혹은 두개의 값 분포를 나타내기 위해 주로 사용 catplot : 범주형 변수와 연속형 변수간의 관계를 나타내기 위해 주로 사용 pie chart는 제공하지 않음 countplot : 빈도값에 대한 막대그래프 barplot 평균값에 대한 막대그래프 범주형 변수에 대해 대표값을 시각화 할 때 이 막대 그래프를 사용 ci 파라미터는 추출까지 오래걸리기때문에 굳이 사용..

멋사 AISCOOL 7기 Python/INPUT 2022. 9. 22. 22:17

추가 정보

인기글

최신글

페이징

이전
1 ··· 5 6 7 8 9
다음
TISTORY
"Growth" Data를 쌓아가는 사람 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바