목록3-1/기계학습 (10)
ggoggo
1. 데이터 전처리 정의 데이터의 품질을 높이는 과정 과정 - 데이터 실수화 : 컴퓨터가 이해할 수 있는 값으로의 변환 - 불완전한 데이터 제거 : NULL, NA, NAN 값의 제거 - 잡음 섞인 데이터 제거 : 가격 데이터의 (-)제거, 연령 데이터 중 과도하게 큰 값 제거 - 모순된 데이터 제거 : 남성 데이터 중 주민번호 2로 시작 - 불균형 데이터 해결 2. 데이터 전처리 기법 - 데이터 실수화 - 데이터 정제 - 데이터 통합 - 데이터 축소 - 데이터 변환 - 데이터 균형 3. 데이터 실수화(Data Vectorization) 정의 : 범주형 자료, 텍스트 자료, 이미지 자료 등을 실수로 구성된 형태로 전환 : 2차원 자료의 예시 유형 (1) 연속형 자료 ---------------------..
머신러닝을 이용한 데이터 분석 과정 (1) 데이터 수집 (2) 탐색 (3) 전처리 : 정규화, 차원축소, 영상처리 (4) 머신러닝 알고리즘 저굥 (5) 성능 평가 (6) 결과 정리 및 시각화 차원 축소의 개요 "차원의 저주 (Curse of dimensionality) " : 차원이 증가할수록 동일 정보량을 표현하기 위해 필요한 데이터의 수는 지수적으로 증가! : 데이터 학습을 위해 차원이 증가하면서 학습 데이터 수가 차원 수보다 적어져 모델의 성능이 저하되는 현상 => 차원이 증가할수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현상 발생 (1) 도메인 지식을 이용 => 중요한 특성만 사용 (2) 목적 함수에 Regularization term 추가 (3) 차원 축소 기술을..

1. 군집화 소개 군집화 : 유사한 속성을 같는 데이터를 묶어 전체 데이터를 몇개의 군집으로 나누는 것 좋은 군집화의 기준 (1) 동일한 군집에 소속된 데이터는 서로 유사할 수록 좋음 (2) 상이한 군집에 소속된 데이터는 서로 다를 수록 좋음 분류 vs. 군집화 - 분류 : 사전 정의된 범주가 있는 데이터로부터 예측 모델을 학습하는 문제 "지도학습(Supervised Learning)" - 군집화 : 사전 정의된 범주가 없는 데이터로부터 최적의 그룹을 찾아가는 문제 "비지도 학습(Unsupervised Learning)" 군집화 적용 사례 - 유사 문서 군집화, 유사 영상 군집화, 유사 고객 군집화 고려사항 => 유사도 측정, 알고리즘 종류, K 선택, 결과 측정 법 (1) 유사도 측정 방법 - 유클리디..

앙상블 학습 - 목적 : 여러 분류기를 하나로 연결하여 개별 분류기 보다 더 좋은 일반화 성능을 달성하는 것 - 방법 (1) 여러 분류 알고리즘 사용 : Voting (2) 하나의 분류 알고리즘 사용 : Bagging, Boosting - 종류 (1) Majority Voting :동일한 학습 데이터 사용 알고리즘: VotingClassifier/Regressor (2) Bagging : 알고리즘 수행마다 서로 다른 학습 데이터 추출하여 사용 if 부트스트랩사용 => 학습데이터 샘플링 시 중복 허용 Random Forest Decision Tree를 사용한 배깅기법 결합방식 : 투표(분류), 평균화(예측) 1. 새로운 학습 데이터를 만든다. => 크기가 n이고 d개의 특성 변수를 가지는 학습 데이터 =>..

데이터 분석 과정 머신러닝을 이용한 데이터 분석 과정 => 모델 최적화, 주어진 데이터 성능 평가 결과 가장 좋은 모델을 찾는 과정 "이때 사용하는 것이 교차검증!" 파이프라인 : 모델 성능 평가 도구 : 사이킷런의 Pipeline 클래스는 연속된 변롼을 순차적으로 처리할 수 있는 기능을 제공하는 유용한 Wrapper도구 => 묶어서 처리! 모델 성능 평가 교차검증 모델 성능 검증하기 위한 방법 1. Holdout Cross Validation 전체 데이터 => 학습 데이터 + 검증 데이터 + 테스트 데이터 2. K-fold Cross 중복없이 훈련 데이터를 K겹으로 랜덤하게 나눔 => K개의 서로 다른 모델을 얻을 수 있음 모델 최적화 과대적합(overfitting) : 모델이 학습 데이터에 너무 잘 ..

1. SVM - 널리 사용 - 패턴 인식, 자료 분석을 위한 지도 학습 모델 - 분류와 회귀 문제에 사용(주로 분류) - 두 카테고리 중 어느 하나 - 커널트릭을 활용하여 비선형 분류 문제에도 사용 가능 SVM 학습방향 : 마진 최대화 => 결정 경계는 주변 데이터와의 거리가 최대가 되어야 함 용어 - 결정경계 - 서포트 벡터 : 결정 경계선에 가장 가까이에 있는 각 클래스의 데이터 - 마진 2.Linear SVM Hard Margin SVM 선형 분리 가능한 문제 Soft Margin SVM - 선형 분리 불가능 문제 - 학습 데이터의 에러가 0이 되도록 완벽하게 나누는 것을 불가능 -> !!에러 허용!! 3. Nonliear SVM 선형 SVM (1) 하드마진 SVM (2) 소프트 마진 SVM 비선형..
의사결정나무란? : 학습 데이터를 분석하여 데이터에 내재되어 있는 패턴을 통해 새롭게 관측된 데이터를 예측 및 분류하는 모델 - 이해하기 쉽, 적용 쉽 - 의사결정과정에 대한 설명 가능 - 중요한 변수 선택에 유용 - 데이터의 통계적 가정이 필요없음 - 많은 데이터 필요 - 상대적으로 시간이 많이 소요 - 데이터의 변화에 민감 - 선형 구조형 데이터 예측 시 더 복잡 Classification Tree DecisionTreeClassifier 끝없는 분할의 단점 => 과적합 : 학습용 데이터에 완전히 적합."나무 성장 중단, 가지치기를 통해 피할 수 있음" Regression Tree DecisionTreeRegressor 입력 데이터(변수 값)의 결과 예측 -> 데이터가 도달한 끝 노드 데이터들의 평균..

판별 분석 : 두 개 이상의 모 집단에서 추출된 표본들이 지니고 있는 정보를 이용하여 이 표본들이 어느 모집단에서 추출된 것인지를 결정해 줄 수 있는 기준을 찾는 분석법 -> 설명변수(ex. 연령, 소득 ...)를 참고하여 예측 - 판별변수 : 어떤 집단에 속하는지 판별하기 위한 변수. 독립 변수 중 판별력이 높은 평수를 뜻함. 상관관계가 적은 독립변수를 선택하는 것이 효과적 - 판별 함수 - 판별 점수 - 표본의 크기 - 판별분석의 단계 1) 독립변수 찾기 LDA의 결정 경계는 선형으로 가정하고 있어 서로 다른 공분산 분류에 어려움 있음 QDA는 가능!! 대신 샘플이 많이 필요 ex. 당뇨병 예상(라벨 : 0,1)