728x90

 

머신러닝이란?



컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야

y = f(x)

y : 출력변수, 종속변수, 반응 변수
f : 모형(알고리즘)
x : 입력변수,독립변수, feature

-> 무엇(X)으로 무엇(Y)을 예측하고 싶을 때 머신러닝 사용




1. 지도학습

: X를 가지고 Y를 예측하는 것


 - 회귀 (regression) : 입력 변수 X에 대해서 연속형 출력 변수 Y를 예측
                          ex) 주가 예측
 - 분류 (classification) : 입력 변수 X에 대해서 이산형 출력 변수 Y(class)를 예측
                          ex) 공정 불량 여부 탐지

 -  서포트 벡터, 결정 트리, 신경망 등


2. 비지도 학습 

 : 출력 변수(Y)가 존재하지 않고 입력 변수(X)로만 모델링하는 것


 - 군집분석(k-Means) : 유사한 데이터끼리 그룹화
 - PCA : 독립변수들의 차원을 축소화

 - 기댓값, 연관 규칙 학습 등



3. 강화 학습 

 : 수많은 시뮬레이션을 통해 보상이 최대치가 되도록 학습
                ex) 알파고

 




머신러닝의 종류



1. 선형 회귀분석(Linear Regression)
 - 독립변수와 종속변수가 선형적인 관계가 있다는 가정을 두고 분석
 - 직선을 통해 종속 변수를 예측

2. 의사결정나무(Decision Tree)
 - 독립변수의 조건에 따라 종속변수를 분리 (ex. 비가 내린다 -> 축구를 하지 않음)
 - 앙상블의 기초, 과적합(overfitting)이 잘 일어남(과거는 잘 맞고, 실제 데이터에 잘 안맞음)

3. KNN (K-Nearest Neighbor)
 - 새로 들어온 데이터의 주변 k개의 데이터의 class로 분류

4. Neural Network 
 - 입력, 은닉, 출력으로 구성된 모형, 각 층을 연결하는 노드의 가중치를 업데이트하면서 학습
   (input layer, Hiedden layer, output layer)

5. SVM(Support Vector Machine)
 - class간의 거리(margin)이 최대가 되도록 decision boundary를 만드는 방법
 - 데이터가 커지면 더 오래 걸리고 보통 학습시간이 오래 걸림

5. Ensemble Learning(앙상블)
 - 여러 개의 모델(classifier or base learner)을 결합하여 사용하는 모델
 
6. K-means clustering (비지도학습)
 - K는 사람이 지정, Label 없이 데이터의 군집으로 k개로 생성

 

 

머신러닝, 딥러닝, 강화 학습 관련 모듈


 - python : 기본 개념과 모듈
 - numpy : 수치 모듈
 - pandas : 데이터 프레임
 - opencv : 이미지 처리 모듈
 - scipy(사이파이) : 고급 수학 함수, 수치 함수, 적분, 미적분 방정식 계산 _최적화, 신호처리
 - matplotlib : 시각화
 -seaborn(시본) : 시각화 + 통계 차트 import seaborn as sns
 - statsmodels(스태츠 모델) 패키지 : 샘플 데이터, 회귀분석, 모의 검정, 이산 종속변수, 시계열 분석 등
                                             영상 이미지(상태 공간 모형, 벡터 AR 모형)
 - scikit-learn(사이킷런) : 데이터셋(회귀분석, 분류, 클러스트용 데이터셋),
                               전처리(스케일링, 결손치, 텍스트로 토큰화), 지도 학습, 비지도 학습, 교차검증
 - missingno(패키지) : 판 다스에서 데이터 결손치를 빠르게 찾아 시각화
 - 텍스트 전처리용 패키지 : nltk
 - librosa : 사운드 전처리
 - geopandas : 지리정보 전처리

728x90
댓글
250x250
최근에 올라온 글
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Total
Today
Yesterday