일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- GitHub
- lol api
- 딥러닝
- Machine Learning
- ubuntu
- Udacity
- 한빛미디어
- 회귀분석
- random forest
- MySQL
- 주피터노트북 커널 제거
- regression
- 주피터노트북 커널 목록
- 나는리뷰어다2021
- Linear Regression
- deep learning
- 주피터노트북
- feature scaling
- 모두를 위한 딥러닝
- overfitting
- 주피터테마
- Git
- pandas
- 주피터노트북 커널 추가
- 경사하강법
- 주피터 노트북 테마
- 데이터분석
- jupytertheme
- deeplearning
- Python
- Today
- Total
목록강의정리/udacity - machine learning (16)
유승훈
강의는 지난번 Evaluation Metrics에서 사실상 끝났고, 이번에는 Wrap-up 느낌의 챕터입니다. 강의에서 배웠던 Task 프로세스를 보면, 데이터나 연구 호기심으로부터 정보를 Feature의 형태로 가져옵니다. 가지고 있는 데이터를 알고리즘에 넣고 훈련시킨 뒤, 결과 혹은 성능을 평가하는 과정을 거칩니다. 필요에 따라 변수 생성, 모델 훈련 단계로 다시 돌아와서 필요하다고 판단되는 처리를 한 뒤, 다시 진행할수도 있습니다. 이를 단계별로 살펴보면, 데이터셋/연구 호기심 단계에서는 충분한 양의 데이터를 가지고 있는가? 문제를 제대로 정의하고 있는가? 우리가 가진 문제에 제대로 답할 수 있는 충분한/올바른 변수를 가지고 있는가? 이 세 가지를 유념해야 합니다. 분석 전에 어떤 방향으로 분석을 ..
앞에서 배웠던 머신러닝 알고리즘들을 학습시키는 것도 중요하지만, 결과를 비교, 평가하고 어떤 것을 실제로 활용할 것인지를 결정하는 것도 중요합니다. Classification에서 가장 직관적으로 분류 성능을 나타내는 지표는 Accuracy입니다. $\frac{TP + TN}{TP + FP + TN + FN}$ 전체 Class 중에서 Class와 상관없이 올바르게 분류된 Class의 비율을 의미합니다. 많이 쓰이는 평가지표이지만, 단점이 없는 것은 아닙니다. 불균형 Class에는 올바르지 않다. => 작은 Class의 분모는 매우 작기 때문에, 많은 Class의 Accuracy보다 평가지표로서의 신뢰성이 떨어집니다. 예를 들어, 암 발병 여부를 예측한다고 하면, 양성보다 음성인 사람들의 수가 많기 때문에 ..
이번 강의에서는 Validation에 대해서 이야기하고 있습니다. 물론 이전에도 알고리즘을 돌리면서 Validation을 했지만, Scikit Learn에서 쓰이는 Cross Validation을 중심으로 이야기하고 있습니다. 지금까지 예제를 보면, 데이터를 Train, Test로 분할해서 활용한 이유는, 독립된 데이터에 성능을 측정하기 위해 모델의 과적합(Overfitting)을 확인하기 위해 이렇게 두 가지로 볼 수 있습니다. Train/Test 데이터를 PCA를 거쳐서 SVM으로 예측하는 Task가 있다고 합시다. Train Feature로 PCA를 Fit, Transform한 뒤, 모델을 학습합니다. Test Feature로는 PCA를 Transform한 뒤, 학습된 모델로 y_test를 예측합니..
seunghunii/tistory_codes Contribute to seunghunii/tistory_codes development by creating an account on GitHub. github.com 이번 글에서는 PCA에 대해서 소개하고 있습니다. PCA는 기존 데이터의 좌표계를 기반으로 새로운 좌표계를 만들어냅니다. 원 좌표계의 원점을 우리가 가진 데이터의 중심으로 바꿉니다. 그리고 X축을 분산의 주축으로 바꿉니다. 이 축은 각 Data들과의 거리가 가장 적습니다. 그리고 Y축을 그와 직교하며 그 다음으로 분산이 큰 방향으로 설정합니다. PCA는 이 축들을 찾고, 이 축들이 얼마나 중요한지를 말해줍니다. 이 데이터에서 새로운 원점을 찾으면, (2,3)이 됩니다. 이를 기반으로 두 벡터..