728x90

 

Chapter1. 한눈에 보는 머신러닝 


 

1. 분류 정리


 

 

2. 실습하기


https://github.com/mafls122/TIL/blob/main/Machine%20Learning/20210513_ML.ipynb

 

mafls122/TIL

Today I Learned. Contribute to mafls122/TIL development by creating an account on GitHub.

github.com

 

 

3. 머신러닝 주요 도전 과제


1. 충분하지 않은 양의 훈련 데이터

-> 대부분의 머신러닝 알고리즘이 잘 작동하려면 데이터가 많아야 한다.

 

2. 대표성 없는 훈련 데이터

-> 일반화가 잘되려면 원하는 새로운 사례를 훈련 데이터가 잘 대표하는 것이 중요하다.

 

3. 낮은 품질의 데이터

-> 에러, 이상치 잡음 등으로 가득하면 머신러닝 시스템이 내재된 패턴을 찾기 어렵다.

 

4. 관련 없는 특성

-> 훈련 데이터에 관련 없는 특성이 적고 관련 있는 특성이 충분해야 학습할 수 있다.

 

5. 훈련 데이터 과대적합 (Overfitting)

-> 훈련 데이터에는 너무 잘 맞지만 일반성이 떨어지는 현상.

    훈련 데이터에 있는 잡음이 양에 비해 모델이 너무 복잡할 때 발생한다.

   < 해결 방법 >
  • 모델 단순화 (파라미터 수가 적은 모델을 선택, 제약 주기 등등)
  • 훈련 데이터를 더 보충한다
  • 훈련 데이터의 잡음을 줄인다

 

6. 훈련 데이터 과소적합 (Underfitting)

-> 과대적합의 반댓말로, 모델이 너무 단순해서 데이터의 내재된 구조를 학습하지 못할 때 발생한다.

   < 해결 방법 >
  • 모델 파라미터가 더 많은 강력한 모델 선택
  • 학습 알고리즘에 더 좋은 특성을 제공
  • 모델의 제약을 줄인다

 

 

연습문제

1. 머신러닝을 어떻게 정의할 수 있나요?

2. 머신러닝이 도움을 줄 수 있는 문제 유형 네 가지를 말해보세요.

3. 레이블된 훈련 세트란 무엇인가요?

4. 가장 널리 사용되는 지도 학습 작업 두 가지는 무엇인가요?

5. 보편적인 비지도 학습 작업 네 가지는 무엇인가요?

6. 사전 정보가 없는 여러 지형에서 로봇을 걸어가게 하려면 어떤 종류의 머신러닝 알고리즘을 사용할 수 있나요?

7. 고객을 여러 그룹으로 분할하려면 어떤 알고리즘을 사용해야 하나요?

8. 스팸 감지의 문제는 지도 학습과 비지도 학습 중 어떤 문제로 볼 수 있나요?

9. 온라인 학습 시스템이 무엇인가요?

10. 외부 메모리 학습이 무엇인가요?

11. 예측을 하기 위해 유사도 측정에 의존하는 학습 알고리즘은 무엇인가요?

12. 모델 파라미터와 학습 알고리즘의 하이퍼파라미터 사이에는 어떤 차이가 있나요?

13. 모델 기반 알고리즘이 찾는 것은 무엇인가요? 성공을 위해 이 알고리즘이 사용하는 가장 일반적인 전략은 무엇인가요? 예측은 어떻게 만드나요?

14. 머신러닝의 주요 도전 과제는 무엇인가요?

15. 모델이 훈련 데이터에서의 성능은 좋지만 새로운 샘플에서의 일반화 성능이 나쁘다면 어떤 문제가 있는건가요? 가능한 해결책 세 가지는 무엇인가요?

16. 테스트 세트가 무엇이고 왜 사용해야 하나요?

17. 검증 세트의 목적은 무엇인가요?

 


출처 : 핸즈온 머신러닝 2판 - 한빛미디어
728x90
댓글
250x250
최근에 올라온 글
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Total
Today
Yesterday