"Growth" Data를 쌓아가는 사람

[TIL]1130: 정형 데이터의 딥러닝 분류 및 회귀

예측 예측해야하는 값이 바이너리가 아닌 0-1사이의 값이 도출됨 바이너리면 결과가 2개 나와야 하는거 아닌가요? -> softmax라면 2개가 나온다 바이너리로 했기 때문에 예측값이 각 row당 예측값이 하나씩 나온다 여기서 나오는 값은 확률값(sigmoid) 0-1사이의 값을 갖는다 따라서 이때는 특정 임계값을 정해서 크고 작다를 통해 True, False값으로 판단한다 임계값은 보통 0.5를 사용하지만 다른 값을 사용하기도 한다. 개선! 레이어 변경, epoch수 변경, validation 변경 등을 통해 성능을 개선할 수 있다. (면접질문)loss와 metric의 차이는 무엇이냐? loss는 손실함수이고, metric은 평가지표이다. loss를 통해 실제값과 예측값의 차이를 측정하게 되고, metr..

멋사 AISCOOL 7기 Python/TIL 2022. 11. 30. 20:53

[TIL]1129: 딥러닝기초, 레이어구성, 활성화함수, 옵티마이저, MNIST, FMNIST

https://www.youtube.com/watch?v=aircAruvnKk 박조은 강사님께서 딥러닝에 개념을 잡기 좋은 영상으로 추천해주셨다 딥러닝 영상 리뷰 28x28 이미지로 학습을 하는데 왜 입력에 784개가 들어갈까요? --> 28 * 28 = 784여서 --> 1차원으로 받기 위해서 --> 1치원으로 평탄화해서 이미지를 분류하기 위해서 --> Fully Connected Network에는 1차원 형태로만 주입이 가능하기 때문에 --> 네트워크에 데이터를 주입하기 위햐서 CNN, RNN에서는 전처리 기능을 제공하고 있고 --> 마지막에 Fully Connected Network를 통과하게 된다 완전연결신경망(Fully Connected Network): 층을 깊게 쌓을 수 있기 때문에 Deep..

멋사 AISCOOL 7기 Python/TIL 2022. 11. 29. 20:45

[TIL]1128: 이진분류평가지표, resampling, 딥러닝연산, 딥러닝학습법

이진분류의 평가 질문. 정확도로 제대로 된 모델의 성능을 측정하기를 어려운 사례? 데이터가 불균형한 경우 금융(은행대출사기, 신용카드사기, 상장폐지종목여부), 제조업(양불여부), 헬스케어(암진단여부), IT관련(게임 어뷰저, 광고 어뷰저, 그 외 어뷰저) -> 대회에서 어뷰저 관련 내용을 찾을때는 Fraud등으로 검색하면 여러사례를 찾을 수 있다. 이런 사례는 Accuracy로 측정하면 99.99 % 가 나온다면 제대로 측정하기 어렵다. Confusion Matrix 뒤에꺼는 예측을 긍/부정으로했냐, 앞에꺼는 그 예측이 맞았냐 틀리냐로 해석 1종오류의 사례 1종오류는 통계상 실제로는 음성인데 양성으로 결과가 나오는 것을 말한다(TP) 1종오류는 precision(정밀도)이라는 측정지표를 사용한다(TP /..

멋사 AISCOOL 7기 Python/TIL 2022. 11. 29. 20:39

[머신러닝] Regression & Boosting Model(1): Linear Regression, Decision Tree, Random Forest, Extra Tree, GBM

1️⃣ 선형회귀모델(Linear Regression) 종속변수 y와 한개 이상의 독립변수(또는 설명변수) X와의 선형 상관 관계를 모델링하응 회귀분석 기법이다. 선형회귀는 선형 예측함수를 사용해 회귀식을 모델링하며, 알려지지 않은 파라미터는 데이터로부터 추정한다. 1-1. 주요 파라미터 from sklearn.linear_model import LinearRegression LinearRegression(fit_intercept=True, normalize='deprecated', copy_X=True, n_jobs=None, positive=False) 1-2. 특징 다른 모델에 비해 간단한 작동원리를 가진다 학습속도가 매우 빠르다 조정해 줄 파라미터가 적다 이상치에 영향을 크게 받는다 데이터가 수치형..

멋사 AISCOOL 7기 Python/INPUT 2022. 11. 24. 17:37

[머신러닝] Ensemble, Bagging, Boosting

1️⃣ Ensemble 앙상블 기법이란 내부적으로 여러 모델을 생성한 후 모델들을 종합해 최종 모델을 생성하는 방법론이다. 머신러닝에서는 여러 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법으로 대표적인 모델로 랜덤포레스트와 그래디언트부스팅이 있다. 📍 랜덤포레스트 → 배깅의 대표적인 예시 조금씩 다른 결정트리의 묶음이다. 각각의 결정트리는 예측을 잘 할 수 있지만 데이터 일부에 과대적합된다 이런 과적합된 트리를 묶어 평균을 채택하면 과적합을 줄일 수 있다. 📍 그래디언트 부스팅 → 부스팅의 대표적인 예시 여러 결정트리의 묶음이다. 랜덤포레스트가 서로 다른 트리의 묶음이라면(배깅), 그라디언트는 순차적으로 결정트리를 만들며 이전 트리의 오차를 보완해간다(부스팅). 이것의 근본 아이디어는 얕은 트리..

멋사 AISCOOL 7기 Python/INPUT 2022. 11. 24. 17:28

[TIL] 20221123

배깅 VS 부스팅 배깅 => 오버피팅 VS 부스팅 => 개별 트리의 성능이 중요할 때 GBM 회귀 또는 분류 분석을 수행할 수 있는 예측모형 예측모형의 앙상블 방법론 중 부스팅 계열에 속하는 알고리즘 머신러닝 알고리즘 중에서도 가장 예측 성능이 높은 알고리즘 GBM구현한 패키지들이 다수 GBM은 계산량이 상당히 많이 필요한 알고리즘이기 때문에, 이를 하드웨어 효율적으로 구현하는 것이 필요 그래디언트 부스팅 트리 (Gradient Boosting Tree) 랜덤 포레스트와 다르게 무작위성이 없다. 매개변수를 잘 조정해야 하고 훈련 시간이 길다. 데이터의 스케일에 구애받지 않는다. 고차원의 희소한 데이터에 잘 작동하지 않는다. -> PCA로 차원축소! MAE VS MSE 기울기가 0인 지점을 찾을 수 있으나..

멋사 AISCOOL 7기 Python/TIL 2022. 11. 24. 00:06

[멋사 SQL 3day] AARRR, 매출분석, 고객세분화분석

💡 AARRR 서비스 성장 분석 방법론 A(Acquisition, 획득): 광고 등의 방법으로 새로운 사용자를 얻어오는 단계 A(Activation, 활성화): 회원 가입, 튜토리얼 등 사용자를 활성화 시키는 단계 R(Retention, 리텐션): 지속적으로 서비스를 사용하게 만드는 단계 R(Revenue, 매출): 매출을 만드는 단계 R(Referral, 추천): 다른 사용자에게 제품을 추천하는 단계 ARPU = 매출 / 전체 유저 수 유저 한명 당 매출액 ARPPU = 매출 / 결제 유저 수 결제 유저 한명 당 매출액 당연히 ARPU < ARPPU이다!! 따라서 매출은 아래와 같이 계산할 수 있다. 매출 = 결제 유저 수 X ARPPU 매출 = 유저 수 X 결제자 비율 X ARPPU 📍 회사의 “전체..

SQL/멋쟁이사자7기&데이터리안 2022. 11. 23. 00:01

[멋사 SQL 3day] Join, Union/Union all

1️⃣JOIN: 테이블을 이어 붙여서 정보를 가져오는 방법 ERD : Entity Relationship Diagram INNER JOIN: 교집합 조인하는 테이블 모두에 데이터가 있는 경우에만 출력함 OUTER JOIN(LEFT, RIGHT) left join 왼쪽 테이블을 기준으로 조인하는 것(from 절에 있는 테이블!) 왼쪽 테이블의 데이터는 모두 들어가고, 오른쪽 테이블 중 왼쪽 테이블과 조인되는 값만 조인이 된다. 이때 조인되지 않은 왼쪽 테이블 값들은 null로 표시된다. right join 오른쪽 테이블을 기준으로 조인하는 것 조인되는 테이블이 from절에 있는 테이블보다 메인이 된다. 조인되는 결과는 left join과 동일하다. 주로 left join만 쓰게 된다. 해석을 하기도 쉽기때..

SQL/멋쟁이사자7기&데이터리안 2022. 11. 22. 23:51

"Growth" Data를 쌓아가는 사람

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

전체 글

추가 정보

인기글

최신글

페이징

티스토리툴바