목록머신러닝 (38)
안 쓰던 블로그
앙상블 학습 -여러 개의 분류기Classifier를 생성, 그 예측을 결합하므로써 보다 정확한 최종 예측을 도출하는 기법(집단지성처럼) -넓은 의미로는 서로 다른 모델을 결합한 것을 지칭 -단일 모델의 약점을 다수의 모델들을 결합하여 보안하기 때문에, 성능이 떨어지더라도 서로 다른 유형의 모델을 섞는 것이 전체 성능에 도움될 수 있음 -보팅(Voting), 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking) 등의 기법이 있음 -대표적인 배깅-랜덤 포레스트 -대표적인 부스팅-에이다 부스팅, 그래디언트 부스팅, XGBoost, LightGBM 등 -보팅, 배깅: 아래에 자세한 설명 -부스팅: 여러 개의 알고리즘이 순차적으로 학습을 하되, 앞에 학습한 알고리즘 예측이 틀린 데이터에 대해..
결정 트리 과적합 from sklearn.datasets import make_classification import matplotlib.pyplot as plt %matplotlib inline plt.title("3 Class values with 2 Features Sample data creation") # 2차원 시각화를 위해서 feature는 2개, 결정값 클래스는 3가지 유형의 classification 샘플 데이터 생성. X_features, y_labels = make_classification(n_features=2, n_redundant=0, n_informative=2, n_classes=3, n_clusters_per_class=1,random_state=0) # plot 형태로 ..
분류(Classification) 학습 데이터의 피처와 레이블값(결정 값, 클래스 값)을 학습, 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 나이브 베이즈(베이즈 통계 기반) 로지스틱 회귀(독립변수, 종속변수의 선형 관계성 기반) 결정 트리(데이터 균일도에 따른 규칙 기반) 신경망(심층 연결 기반) 앙상블(서로 다르거나 같은 머신러닝 알고리즘 결합, 결정 트리를 기반) 등등.. 결정 트리와 앙상블 결정 트리는 데이터 스케일링이나 정규화 등의 사전 가공 영향이 적고, 쉽고 유연하게 적용되지만 예측 성능 향상을 위해서는 복잡한 규칙 구조를 가져야 한다. 이로 인한 overfitting과적합 때문에 오히려 예측 성능이 저하되는 단점이 있다 앙상블은 매..
평가 1. 정확도(Accuracy) 2. 오차행렬(Confusion Matrix) 3. 정밀도(Precision) 4. 재현율(Recall) 5. F1 스코어: 정밀도와 재현율가 얼마나 균형 잡혀 있는가? 6. ROC AUC: 이진분류에서 많이 활용하는 성적 지표 1~4: foxtrotin.tistory.com/403 5~6: foxtrotin.tistory.com/440 실습: 현재글 www.kaggle.com/uciml/pima-indians-diabetes-database Pima Indians Diabetes Database Predict the onset of diabetes based on diagnostic measures www.kaggle.com 캐글의 피마 인디언 당뇨병을 예측하는 평가..
분류 성능 평가 지표 1. 정확도(Accuracy) 2. 오차행렬(Confusion Matrix) 3. 정밀도(Precision) 4. 재현율(Recall) 5. F1 스코어: 정밀도와 재현율가 얼마나 균형 잡혀 있는가? 6. ROC AUC: 이진분류에서 많이 활용하는 성적 지표 1~4: foxtrotin.tistory.com/403 5~6: 현재글 실습: foxtrotin.tistory.com/441 5. F1 스코어 정밀도와 재현율의 맹점 정밀도를 100%으로 만드는 법: 확실한 기준이 되는 경우만 Positive로 예측, 나머지는 모두 Negative로 예측한다(누가봐도 암인 너무 정확한 사람만 암이라고 진단) 좀 더 풀어서 말하면 정밀도=TP/(TP+FP)이다. 전체 환자 1000명 중 확실한 P..
회귀 문제 연속된 값을 예측하는 문제 선형 회귀 주어진 데이터(실제 값) x로 타겟 y를 예측하는 과제 독립 변수 x와 y의 선형 관계를 모델링한다 1) 단순 선형 회귀 $y=Wx+b$ 독립 변수 x가 1개면 단순 선형 회귀라고 하며, 위의 식을 따른다 $W$는 가중치, $b$를 편향(bias)라고 한다 (직선 방정식이라면 기울기와 절편을 말한다) 2) 다중 선형 회귀 $y=W_1x_1+W_2x_2+...+W_nx_n+b$ $y$는 1개지만, $x$가 여러 개인 선형 회귀이다. 고려해야 하는 실제 값이 여러 개일 때 사용한다 가설 세우기((Linear) Hypothesis) 데이터로부터 x와 y의 관계를 유추하고 어떤 결과를 예측하기 위한 수학적인 식이 필요하고, 그 식을 가설이라고 한다 선형 회귀의 가..
Fast RCNN -SPP Layer를 ROI Pooling Layer로 SPP-Net과 비슷하지만 L0,L1,L2로 나누지 않고 7x7크기 하나의 레이어를 가지고 벡터가 만들어짐 -End-to-End Network Learning을 시켰다(ROI Proposal은 제외) Multi-task loss함수로 Classification과 Regression을 함께 최적화 문제점: End-to-End Learning에 ROI Proposal이 되지 않았고, 그것 때문에 네트워크에 포함시켰을 때는 시간이 오래걸렸다. 네트워크를 포함하려는 요구에 따라 해결책이 나왔고, 그것이 Faster RCNN이다 Faster RCNN Fater RCNN = RPN(Region Proposal Network)+Fast RCNN..