일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 한빛미디어
- jupytertheme
- feature scaling
- 주피터노트북
- 나는리뷰어다2021
- Git
- 딥러닝
- random forest
- ubuntu
- deeplearning
- 주피터테마
- Machine Learning
- 경사하강법
- 데이터분석
- Udacity
- 모두를 위한 딥러닝
- lol api
- MySQL
- 주피터노트북 커널 제거
- pandas
- 주피터 노트북 테마
- deep learning
- Linear Regression
- overfitting
- GitHub
- Python
- regression
- 주피터노트북 커널 추가
- 회귀분석
- 주피터노트북 커널 목록
- Today
- Total
목록전체 글 (73)
유승훈

이번 강의에서는 Validation에 대해서 이야기하고 있습니다. 물론 이전에도 알고리즘을 돌리면서 Validation을 했지만, Scikit Learn에서 쓰이는 Cross Validation을 중심으로 이야기하고 있습니다. 지금까지 예제를 보면, 데이터를 Train, Test로 분할해서 활용한 이유는, 독립된 데이터에 성능을 측정하기 위해 모델의 과적합(Overfitting)을 확인하기 위해 이렇게 두 가지로 볼 수 있습니다. Train/Test 데이터를 PCA를 거쳐서 SVM으로 예측하는 Task가 있다고 합시다. Train Feature로 PCA를 Fit, Transform한 뒤, 모델을 학습합니다. Test Feature로는 PCA를 Transform한 뒤, 학습된 모델로 y_test를 예측합니..

seunghunii/tistory_codes Contribute to seunghunii/tistory_codes development by creating an account on GitHub. github.com 이번 글에서는 PCA에 대해서 소개하고 있습니다. PCA는 기존 데이터의 좌표계를 기반으로 새로운 좌표계를 만들어냅니다. 원 좌표계의 원점을 우리가 가진 데이터의 중심으로 바꿉니다. 그리고 X축을 분산의 주축으로 바꿉니다. 이 축은 각 Data들과의 거리가 가장 적습니다. 그리고 Y축을 그와 직교하며 그 다음으로 분산이 큰 방향으로 설정합니다. PCA는 이 축들을 찾고, 이 축들이 얼마나 중요한지를 말해줍니다. 이 데이터에서 새로운 원점을 찾으면, (2,3)이 됩니다. 이를 기반으로 두 벡터..

Feature Selection의 기본은 우리가 가진 데이터의 트렌드와 패턴을 잘 파악할 수 있는 최소한의 변수를 선택하는 것입니다. 우리의 Machine Learning Algorithm은 우리가 넣은 Feature들이 좋은 만큼 좋은 성능을 내기 때문입니다. 좋지 않은 Feature는 오히려 Algorithm의 성능을 떨어뜨릴 수 있습니다. "Garbage in, Gabage out"이라는 말이 있죠. Feature Selection은 크게 두 개의 Task가 있습니다. 첫번째는 최고의 Feature들을 고르는 것입니다. 이는 도움이 되지 않는 Feature를 제거하는 것이기도 합니다. 두번째는 새로운 Feature를 만드는 것입니다. 우리가 데이터에서 끌어낸 패턴을 새로운 Feature로 추가하는 ..

이번 강의에서는 Text 데이터를 처리하는 것에 대해 소개했습니다. seunghunii/simple_examples Contribute to seunghunii/simple_examples development by creating an account on GitHub. github.com 보통은 예제코드가 간단하게 모델 돌려보는 정도여서 따로 정리하지 않았는데, 이번에는 처음보는 코드여서 Jupyter에 정리해두었습니다. 실습에서 사용한 코드 전체는 위의 링크에서 확인할 수 있습니다. Text데이터를 SVM같은 알고리즘에 활용하려면 어떻게 처리해야할까요? 기본적으로 모든 문서의 길이는 같지 않습니다. 때문에 개별적인 Feature로 만들기가 쉽지 않습니다. 그래서, 우리는 Bag of words라는 것..