목록머신러닝/머신러닝 (42)
안 쓰던 블로그
결정 트리 과적합 from sklearn.datasets import make_classification import matplotlib.pyplot as plt %matplotlib inline plt.title("3 Class values with 2 Features Sample data creation") # 2차원 시각화를 위해서 feature는 2개, 결정값 클래스는 3가지 유형의 classification 샘플 데이터 생성. X_features, y_labels = make_classification(n_features=2, n_redundant=0, n_informative=2, n_classes=3, n_clusters_per_class=1,random_state=0) # plot 형태로 ..
분류(Classification) 학습 데이터의 피처와 레이블값(결정 값, 클래스 값)을 학습, 모델을 생성하고, 이렇게 생성된 모델에 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것 나이브 베이즈(베이즈 통계 기반) 로지스틱 회귀(독립변수, 종속변수의 선형 관계성 기반) 결정 트리(데이터 균일도에 따른 규칙 기반) 신경망(심층 연결 기반) 앙상블(서로 다르거나 같은 머신러닝 알고리즘 결합, 결정 트리를 기반) 등등.. 결정 트리와 앙상블 결정 트리는 데이터 스케일링이나 정규화 등의 사전 가공 영향이 적고, 쉽고 유연하게 적용되지만 예측 성능 향상을 위해서는 복잡한 규칙 구조를 가져야 한다. 이로 인한 overfitting과적합 때문에 오히려 예측 성능이 저하되는 단점이 있다 앙상블은 매..
평가 1. 정확도(Accuracy) 2. 오차행렬(Confusion Matrix) 3. 정밀도(Precision) 4. 재현율(Recall) 5. F1 스코어: 정밀도와 재현율가 얼마나 균형 잡혀 있는가? 6. ROC AUC: 이진분류에서 많이 활용하는 성적 지표 1~4: foxtrotin.tistory.com/403 5~6: foxtrotin.tistory.com/440 실습: 현재글 www.kaggle.com/uciml/pima-indians-diabetes-database Pima Indians Diabetes Database Predict the onset of diabetes based on diagnostic measures www.kaggle.com 캐글의 피마 인디언 당뇨병을 예측하는 평가..
분류 성능 평가 지표 1. 정확도(Accuracy) 2. 오차행렬(Confusion Matrix) 3. 정밀도(Precision) 4. 재현율(Recall) 5. F1 스코어: 정밀도와 재현율가 얼마나 균형 잡혀 있는가? 6. ROC AUC: 이진분류에서 많이 활용하는 성적 지표 1~4: foxtrotin.tistory.com/403 5~6: 현재글 실습: foxtrotin.tistory.com/441 5. F1 스코어 정밀도와 재현율의 맹점 정밀도를 100%으로 만드는 법: 확실한 기준이 되는 경우만 Positive로 예측, 나머지는 모두 Negative로 예측한다(누가봐도 암인 너무 정확한 사람만 암이라고 진단) 좀 더 풀어서 말하면 정밀도=TP/(TP+FP)이다. 전체 환자 1000명 중 확실한 P..
분류 성능 평가 지표 1. 정확도(Accuracy) 2. 오차행렬(Confusion Matrix) 3. 정밀도(Precision) 4. 재현율(Recall) 5. F1 스코어: 정밀도와 재현율가 얼마나 균형 잡혀 있는가? 6. ROC AUC: 이진분류에서 많이 활용하는 성적 지표 1~4: 현재글 5~6: foxtrotin.tistory.com/440 실습: foxtrotin.tistory.com/441 1. 정확도 $$정확도(Accuracy)=\frac{예측 결과가 동일한 데이터 건수}{전체 예측 데이터 건수}$$ -직관적으로 모델 예측 선응을 나타내는 평가 지표 -이진 분류의 경우 데이터 구성에 따라 ML 모델의 성능을 왜곡할 수 있어서 이 수치 하나만 가지고 성능 평가 하지 않는다(타이타닉 예제에서 ..
회귀 문제 연속된 값을 예측하는 문제 선형 회귀 주어진 데이터(실제 값) x로 타겟 y를 예측하는 과제 독립 변수 x와 y의 선형 관계를 모델링한다 1) 단순 선형 회귀 $y=Wx+b$ 독립 변수 x가 1개면 단순 선형 회귀라고 하며, 위의 식을 따른다 $W$는 가중치, $b$를 편향(bias)라고 한다 (직선 방정식이라면 기울기와 절편을 말한다) 2) 다중 선형 회귀 $y=W_1x_1+W_2x_2+...+W_nx_n+b$ $y$는 1개지만, $x$가 여러 개인 선형 회귀이다. 고려해야 하는 실제 값이 여러 개일 때 사용한다 가설 세우기((Linear) Hypothesis) 데이터로부터 x와 y의 관계를 유추하고 어떤 결과를 예측하기 위한 수학적인 식이 필요하고, 그 식을 가설이라고 한다 선형 회귀의 가..
RPN Feature맵을 인풋으로 받아서 오브젝트가 있을만한 영역을 추천한다(selective search와 비슷한 기능) 원본 이미지->VGG->RPN[Feature Map(사이즈 변경, 채널 512)->(영역추천1)1x1 Fully Convolutional Layer(이진 분류: 오브젝트인가FG/아닌가BG. 두 번 하므로 Anchor Box 9개x2) ->(영역추천2)1x1 Fully Convolutional Layer(Bounding Box Regression: X1, Y1, X2, Y2. 네 번 하므로 9x4)] Positive Anchor Box, Negative Anchor box분류 Classification Ground Truth 바운딩 박스(실제 오브젝트)가 겹치는 IOU값에 따라 Anc..