"Growth" Data를 쌓아가는 사람

고정 헤더 영역

글 제목

메뉴 레이어

"Growth" Data를 쌓아가는 사람

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (67)
    • 멋사 AISCOOL 7기 Python (49)
      • INPUT (35)
      • OUTPUT(project) (1)
      • TIL (9)
    • SQL (17)
      • 멋쟁이사자7기&데이터리안 (5)
      • SQL 문제풀이 스터디 (12)
    • 데이터 분석 (1)
      • 데이터넥스트레벨2기 (1)

검색 레이어

"Growth" Data를 쌓아가는 사람

검색 영역

컨텐츠 검색

전체 글

  • [머신러닝] INTRO. 머신러닝프로젝트 주요단계(전처리, EDA, Feature Engineering, 교차검증, 하이퍼파라미터튜닝)

    2022.11.17 by dundunee

  • [머신러닝] INTRO. Definition, Tool, 알고리즘 유형

    2022.11.17 by dundunee

  • [2주차] 프로그래머스, SELECT/ SUM,MIN,MAX 문제풀이

    2022.11.11 by dundunee

  • [1주차] 프로그래머스: SELECT 문제풀이

    2022.11.03 by dundunee

  • 시각화 총정리: plotly

    2022.10.28 by dundunee

  • 시각화 총정리: seaborn

    2022.10.28 by dundunee

  • Boolean Indexing

    2022.10.28 by dundunee

  • [데이터 집계] pd.crosstab, pivot table, group by

    2022.10.28 by dundunee

[머신러닝] INTRO. 머신러닝프로젝트 주요단계(전처리, EDA, Feature Engineering, 교차검증, 하이퍼파라미터튜닝)

1️⃣ step1. 데이터 수집 → 전처리 → EDA Feature engineering을 위한 단계로 볼 수 있다. 1) 데이터 탐색 .info(), .select_dtypes()매서드를 이용해서 데이터프레임에 대한 요약정보 확인 이를 통해 범주형(Categorical) 및 수치형(Numeric) 변수(Features)가 얼마나 있는지 확인할 수 있음 2) 결측치(Missing Value) 탐색 결측치란, Feature가 적절한 값을 갖지 못하고 무의미한 값을 갖는 경우를 의미한다. None, Null, Nan, 공백 등 다양한 값으로 존재하며 잘 처리해줘야한다. .isnull().sum(), .isnul().sum().mean() 3) 이상치(Outlier) 이상치란 Feature에서 일반적인 값 분..

멋사 AISCOOL 7기 Python/INPUT 2022. 11. 17. 17:02

[머신러닝] INTRO. Definition, Tool, 알고리즘 유형

1. Definition 💡머신러닝 : A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, imporves with experiance E week AI를 구현하기 위한 하나의 수단이다. Strong AI: 강인공지능, 사람처럼 행동하는 것 Week AI: 하나의 목적을 위해 만들어진 AI(ex. 알파고) 경험을 통해 컴퓨터 프로그램을 imporve한다. 2. Tools(라이브러리) 1) 사이킷런(scikit-learn) GitHub에서 가장 인기 있는 ..

멋사 AISCOOL 7기 Python/INPUT 2022. 11. 17. 16:50

[2주차] 프로그래머스, SELECT/ SUM,MIN,MAX 문제풀이

문제1. 프로그래머스 > SELECT > 오프라인/온라인 판매 데이터 통합하기: UNION ALL # 정답으로 인정됨 SELECT DB.SALES_DATE AS SALES_DATE, DB.PRODUCT_ID AS PRODUCT_ID, CASE WHEN DB.USER_ID IS NULL THEN NULL ELSE DB.USER_ID END AS USER_ID, DB.SALES_AMOUNT AS SALES_AMOUNT FROM( SELECT DATE_FORMAT(SALES_DATE, "%Y-%m-%d") as SALES_DATE, PRODUCT_ID, USER_ID, SUM(SALES_AMOUNT) AS SALES_AMOUNT FROM ONLINE_SALE WHERE MONTH(SALES_DATE) = 3 ..

SQL/SQL 문제풀이 스터디 2022. 11. 11. 22:35

[1주차] 프로그래머스: SELECT 문제풀이

문제1. 프로그래머스 > SELECT > 과일로 만든 아이스크림 고르기 SELECT F.FLAVOR AS FLAVOR FROM FIRST_HALF F INNER JOIN ICECREAM_INFO I ON F.FLAVOR = I.FLAVOR WHERE F.TOTAL_ORDER > 3000 AND I.INGREDIENT_TYPE = 'fruit_based' ORDER BY F.TOTAL_ORDER DESC 문제2. 프로그래머스 > SELECT > 12세 이하인 여자환자 목록 출력하기 SELECT PT_NAME, PT_NO, GEND_CD, AGE, CASE WHEN TLNO IS NULL THEN 'NONE' ELSE TLNO END AS TLNO FROM PATIENT WHERE AGE SELECT > 흉..

SQL/SQL 문제풀이 스터디 2022. 11. 3. 17:37

시각화 총정리: plotly

국가 권역별 수출 수입에 대한 데이터를 시각화해보고자 한다. world = ['아시아', '중동', '유럽', '북미', '중남미', '아프리카', '오세아니아', '기타지역', 'EU(27)', 'OECD', 'ASEAN', 'LAIA', '선진국', 'OPEC', '개발도상국'] df_word = df[df["국가권역"].isin(world)] df_country = df[~df["국가권역"].isin(world)] px.histogram(df_country, x="달러", y="국가권역", histfunc="sum") plotly express histogram == seaborn의 barplot과 유사한 기능을 한다. seaborn의 estimate == plotly의 histfunc histfu..

멋사 AISCOOL 7기 Python/INPUT 2022. 10. 28. 01:22

시각화 총정리: seaborn

1. x = 범주형 변수, y = 수치형변수 일 때 barplot plt.figure(figsize=(12,8)) sns.barplot(data = df, x="연도", y="평당분양가격") pointplot plt.figure(figsize=(12,8)) sns.pointplot(data = df, x="연도", y="평당분양가격") boxplot plt.figure(figsize=(12,8)) sns.boxplot(data = df, x="연도", y="평당분양가격") violinplot plt.figure(figsize=(12,8)) sns.violinplot(data = df, x="연도", y="평당분양가격") swarmplot plt.figure(figsize=(12,8)) sns.swarmp..

멋사 AISCOOL 7기 Python/INPUT 2022. 10. 28. 01:13

Boolean Indexing

1. 여러 조건 비교하기 강남구에서 일요일에 확진된 데이터 df[(df["거주구"]=="강남구")&(df["요일명"]=="일")] 거주구가 강남구이며 여행력이 일본인 데이터의 접촉력과 퇴원현황 데이터 가져오기 df[(df["거주구"]=="강남구")&(df["여행력"]=="일본")]["접촉력","퇴원현황"] df.loc[(df["거주구"]=="강남구")&(df["여행력"]=="일본"),["접촉력","퇴원현황"]] 2. str.contains 활용하기 컬럼 대문자 만들기 df["접촉력_대문자"] = df["접촉력"].str.upper() pc방이 들어간 데이터를 찾고, 접촉력에 대한 빈도수 세기 df[df["접촉력_대문자"].str.contains("PC방")]["접촉력"].value_counts() df...

멋사 AISCOOL 7기 Python/INPUT 2022. 10. 28. 01:01

[데이터 집계] pd.crosstab, pivot table, group by

pd.crosstab 2개의 범주형변수에 대한 빈도수를 구할 때 사용한다. 연도, 퇴원현황 두개 변수에 대한 빈도수 구하기 pd.crosstab(index=df["연도"], column=df["퇴원현황"]) normalize=True를 사용한 빈도 비율 구하기 pd.crosstab(index=df["연도"], column=df["퇴원현황"], normalize=True)*100 pivot table 거주구, 해외유입에 대한 빈도수 하기 pd.pivot_table(data = df, index="거주구", columns="해외유입", aggfunc="count") 거주구, 해외유입에 대한 환자 빈도수 하기 pd.pivot_table(data = df, index="거주구", columns="해외유입", v..

멋사 AISCOOL 7기 Python/INPUT 2022. 10. 28. 00:57

추가 정보

인기글

최신글

페이징

이전
1 ··· 3 4 5 6 7 8 9
다음
TISTORY
"Growth" Data를 쌓아가는 사람 © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바